Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse

Autores
Jaime, Rubén Alejandro
Año de publicación
2021
Idioma
español castellano
Tipo de recurso
tesis de maestría
Estado
versión aceptada
Colaborador/a o director/a de tesis
Hasperué, Waldo
Sanz, Victoria María
Rio, Nicolás del
Rucci, Enzo
Descripción
El presente trabajo tiene como objetivo desarrollar un estudio comparativo entre Apache Flink y Apache Spark, partiendo de la medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse. Para ello, la presente investigación se sustenta en el paradigma cuantitativo de tipo comparativo. Las técnicas de investigación son el análisis de documento y análisis de contenido. Los resultados develan que de tratarse de un proyecto que requiere de amplio volumen de procesamiento de datos, la opción es emplear Apache Spark, dada la facilidad para codificar y realizar numerosas tareas; adicionalmente se pudo develar que este framework dispone de abundante información y profesionales con competencias y experiencia para trabajar en este sistema. Por su parte Apache Flink se distingue por ser un framework diseñado para procesamiento de streaming, no cuenta con mucha información de fácil acceso y existe un número reducido de especialistas con dominio y experiencia en este campo; siendo dos desventajas para su selección. Además, es importante señalar que ambos framework son eficientes en la ejecución de tareas, aunque en cuanto a versatilidad se distingue Apache Spark, por cuanto que permite emplear su potencial en diversos lenguajes de programación. Asimismo, es de destacar que a través de la experimentación los mejores tiempos obtenidos para ambas herramientas se logran al modificar el storage y cuando se lo trabaja en un formato columnar.
Especialista en Inteligencia de Datos orientada a Big Data
Universidad Nacional de La Plata
Facultad de Informática
Materia
Ciencias Informáticas
Apache Spark
Big Data
Apache Flink
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/126780

id SEDICI_8c272cf01495693bba18efd2fd065eb2
oai_identifier_str oai:sedici.unlp.edu.ar:10915/126780
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un DatawarehouseJaime, Rubén AlejandroCiencias InformáticasApache SparkBig DataApache FlinkEl presente trabajo tiene como objetivo desarrollar un estudio comparativo entre Apache Flink y Apache Spark, partiendo de la medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse. Para ello, la presente investigación se sustenta en el paradigma cuantitativo de tipo comparativo. Las técnicas de investigación son el análisis de documento y análisis de contenido. Los resultados develan que de tratarse de un proyecto que requiere de amplio volumen de procesamiento de datos, la opción es emplear Apache Spark, dada la facilidad para codificar y realizar numerosas tareas; adicionalmente se pudo develar que este framework dispone de abundante información y profesionales con competencias y experiencia para trabajar en este sistema. Por su parte Apache Flink se distingue por ser un framework diseñado para procesamiento de streaming, no cuenta con mucha información de fácil acceso y existe un número reducido de especialistas con dominio y experiencia en este campo; siendo dos desventajas para su selección. Además, es importante señalar que ambos framework son eficientes en la ejecución de tareas, aunque en cuanto a versatilidad se distingue Apache Spark, por cuanto que permite emplear su potencial en diversos lenguajes de programación. Asimismo, es de destacar que a través de la experimentación los mejores tiempos obtenidos para ambas herramientas se logran al modificar el storage y cuando se lo trabaja en un formato columnar.Especialista en Inteligencia de Datos orientada a Big DataUniversidad Nacional de La PlataFacultad de InformáticaHasperué, WaldoSanz, Victoria MaríaRio, Nicolás delRucci, Enzo2021-10-05info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTrabajo de especializacionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/126780spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/4.0/Creative Commons Attribution 4.0 International (CC BY 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:30:33Zoai:sedici.unlp.edu.ar:10915/126780Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:30:34.122SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
title Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
spellingShingle Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
Jaime, Rubén Alejandro
Ciencias Informáticas
Apache Spark
Big Data
Apache Flink
title_short Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
title_full Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
title_fullStr Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
title_full_unstemmed Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
title_sort Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
dc.creator.none.fl_str_mv Jaime, Rubén Alejandro
author Jaime, Rubén Alejandro
author_facet Jaime, Rubén Alejandro
author_role author
dc.contributor.none.fl_str_mv Hasperué, Waldo
Sanz, Victoria María
Rio, Nicolás del
Rucci, Enzo
dc.subject.none.fl_str_mv Ciencias Informáticas
Apache Spark
Big Data
Apache Flink
topic Ciencias Informáticas
Apache Spark
Big Data
Apache Flink
dc.description.none.fl_txt_mv El presente trabajo tiene como objetivo desarrollar un estudio comparativo entre Apache Flink y Apache Spark, partiendo de la medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse. Para ello, la presente investigación se sustenta en el paradigma cuantitativo de tipo comparativo. Las técnicas de investigación son el análisis de documento y análisis de contenido. Los resultados develan que de tratarse de un proyecto que requiere de amplio volumen de procesamiento de datos, la opción es emplear Apache Spark, dada la facilidad para codificar y realizar numerosas tareas; adicionalmente se pudo develar que este framework dispone de abundante información y profesionales con competencias y experiencia para trabajar en este sistema. Por su parte Apache Flink se distingue por ser un framework diseñado para procesamiento de streaming, no cuenta con mucha información de fácil acceso y existe un número reducido de especialistas con dominio y experiencia en este campo; siendo dos desventajas para su selección. Además, es importante señalar que ambos framework son eficientes en la ejecución de tareas, aunque en cuanto a versatilidad se distingue Apache Spark, por cuanto que permite emplear su potencial en diversos lenguajes de programación. Asimismo, es de destacar que a través de la experimentación los mejores tiempos obtenidos para ambas herramientas se logran al modificar el storage y cuando se lo trabaja en un formato columnar.
Especialista en Inteligencia de Datos orientada a Big Data
Universidad Nacional de La Plata
Facultad de Informática
description El presente trabajo tiene como objetivo desarrollar un estudio comparativo entre Apache Flink y Apache Spark, partiendo de la medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse. Para ello, la presente investigación se sustenta en el paradigma cuantitativo de tipo comparativo. Las técnicas de investigación son el análisis de documento y análisis de contenido. Los resultados develan que de tratarse de un proyecto que requiere de amplio volumen de procesamiento de datos, la opción es emplear Apache Spark, dada la facilidad para codificar y realizar numerosas tareas; adicionalmente se pudo develar que este framework dispone de abundante información y profesionales con competencias y experiencia para trabajar en este sistema. Por su parte Apache Flink se distingue por ser un framework diseñado para procesamiento de streaming, no cuenta con mucha información de fácil acceso y existe un número reducido de especialistas con dominio y experiencia en este campo; siendo dos desventajas para su selección. Además, es importante señalar que ambos framework son eficientes en la ejecución de tareas, aunque en cuanto a versatilidad se distingue Apache Spark, por cuanto que permite emplear su potencial en diversos lenguajes de programación. Asimismo, es de destacar que a través de la experimentación los mejores tiempos obtenidos para ambas herramientas se logran al modificar el storage y cuando se lo trabaja en un formato columnar.
publishDate 2021
dc.date.none.fl_str_mv 2021-10-05
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/acceptedVersion
Trabajo de especializacion
http://purl.org/coar/resource_type/c_bdcc
info:ar-repo/semantics/tesisDeMaestria
format masterThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/126780
url http://sedici.unlp.edu.ar/handle/10915/126780
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by/4.0/
Creative Commons Attribution 4.0 International (CC BY 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
Creative Commons Attribution 4.0 International (CC BY 4.0)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844616185960726528
score 13.070432