Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse

Autores: Jaime, Rubén Alejandro
Año de publicación: 2021
Idioma: español castellano
Tipo de recurso: tesis de maestría
Estado: versión aceptada
Colaborador/a o director/a de tesis: Hasperué, Waldo
Sanz, Victoria María
Rio, Nicolás del
Rucci, Enzo
Descripción: El presente trabajo tiene como objetivo desarrollar un estudio comparativo entre Apache Flink y Apache Spark, partiendo de la medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse. Para ello, la presente investigación se sustenta en el paradigma cuantitativo de tipo comparativo. Las técnicas de investigación son el análisis de documento y análisis de contenido. Los resultados develan que de tratarse de un proyecto que requiere de amplio volumen de procesamiento de datos, la opción es emplear Apache Spark, dada la facilidad para codificar y realizar numerosas tareas; adicionalmente se pudo develar que este framework dispone de abundante información y profesionales con competencias y experiencia para trabajar en este sistema. Por su parte Apache Flink se distingue por ser un framework diseñado para procesamiento de streaming, no cuenta con mucha información de fácil acceso y existe un número reducido de especialistas con dominio y experiencia en este campo; siendo dos desventajas para su selección. Además, es importante señalar que ambos framework son eficientes en la ejecución de tareas, aunque en cuanto a versatilidad se distingue Apache Spark, por cuanto que permite emplear su potencial en diversos lenguajes de programación. Asimismo, es de destacar que a través de la experimentación los mejores tiempos obtenidos para ambas herramientas se logran al modificar el storage y cuando se lo trabaja en un formato columnar.
Especialista en Inteligencia de Datos orientada a Big Data
Universidad Nacional de La Plata
Facultad de Informática
Materia: Ciencias Informáticas
Apache Spark
Big Data
Apache Flink
Nivel de accesibilidad: acceso abierto
Condiciones de uso: http://creativecommons.org/licenses/by/4.0/
Repositorio
Institución: Universidad Nacional de La Plata
OAI Identificador: oai:sedici.unlp.edu.ar:10915/126780

Acceder

id	SEDICI_8c272cf01495693bba18efd2fd065eb2
oai_identifier_str	oai:sedici.unlp.edu.ar:10915/126780
network_acronym_str	SEDICI
repository_id_str	1329
network_name_str	SEDICI (UNLP)
spelling	Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un DatawarehouseJaime, Rubén AlejandroCiencias InformáticasApache SparkBig DataApache FlinkEl presente trabajo tiene como objetivo desarrollar un estudio comparativo entre Apache Flink y Apache Spark, partiendo de la medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse. Para ello, la presente investigación se sustenta en el paradigma cuantitativo de tipo comparativo. Las técnicas de investigación son el análisis de documento y análisis de contenido. Los resultados develan que de tratarse de un proyecto que requiere de amplio volumen de procesamiento de datos, la opción es emplear Apache Spark, dada la facilidad para codificar y realizar numerosas tareas; adicionalmente se pudo develar que este framework dispone de abundante información y profesionales con competencias y experiencia para trabajar en este sistema. Por su parte Apache Flink se distingue por ser un framework diseñado para procesamiento de streaming, no cuenta con mucha información de fácil acceso y existe un número reducido de especialistas con dominio y experiencia en este campo; siendo dos desventajas para su selección. Además, es importante señalar que ambos framework son eficientes en la ejecución de tareas, aunque en cuanto a versatilidad se distingue Apache Spark, por cuanto que permite emplear su potencial en diversos lenguajes de programación. Asimismo, es de destacar que a través de la experimentación los mejores tiempos obtenidos para ambas herramientas se logran al modificar el storage y cuando se lo trabaja en un formato columnar.Especialista en Inteligencia de Datos orientada a Big DataUniversidad Nacional de La PlataFacultad de InformáticaHasperué, WaldoSanz, Victoria MaríaRio, Nicolás delRucci, Enzo2021-10-05info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTrabajo de especializacionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/126780spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/4.0/Creative Commons Attribution 4.0 International (CC BY 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-27T11:24:45Zoai:sedici.unlp.edu.ar:10915/126780Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-27 11:24:45.986SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv	Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
title	Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
spellingShingle	Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse Jaime, Rubén Alejandro Ciencias Informáticas Apache Spark Big Data Apache Flink
title_short	Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
title_full	Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
title_fullStr	Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
title_full_unstemmed	Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
title_sort	Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
dc.creator.none.fl_str_mv	Jaime, Rubén Alejandro
author	Jaime, Rubén Alejandro
author_facet	Jaime, Rubén Alejandro
author_role	author
dc.contributor.none.fl_str_mv	Hasperué, Waldo Sanz, Victoria María Rio, Nicolás del Rucci, Enzo
dc.subject.none.fl_str_mv	Ciencias Informáticas Apache Spark Big Data Apache Flink
topic	Ciencias Informáticas Apache Spark Big Data Apache Flink
dc.description.none.fl_txt_mv	El presente trabajo tiene como objetivo desarrollar un estudio comparativo entre Apache Flink y Apache Spark, partiendo de la medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse. Para ello, la presente investigación se sustenta en el paradigma cuantitativo de tipo comparativo. Las técnicas de investigación son el análisis de documento y análisis de contenido. Los resultados develan que de tratarse de un proyecto que requiere de amplio volumen de procesamiento de datos, la opción es emplear Apache Spark, dada la facilidad para codificar y realizar numerosas tareas; adicionalmente se pudo develar que este framework dispone de abundante información y profesionales con competencias y experiencia para trabajar en este sistema. Por su parte Apache Flink se distingue por ser un framework diseñado para procesamiento de streaming, no cuenta con mucha información de fácil acceso y existe un número reducido de especialistas con dominio y experiencia en este campo; siendo dos desventajas para su selección. Además, es importante señalar que ambos framework son eficientes en la ejecución de tareas, aunque en cuanto a versatilidad se distingue Apache Spark, por cuanto que permite emplear su potencial en diversos lenguajes de programación. Asimismo, es de destacar que a través de la experimentación los mejores tiempos obtenidos para ambas herramientas se logran al modificar el storage y cuando se lo trabaja en un formato columnar. Especialista en Inteligencia de Datos orientada a Big Data Universidad Nacional de La Plata Facultad de Informática
description	El presente trabajo tiene como objetivo desarrollar un estudio comparativo entre Apache Flink y Apache Spark, partiendo de la medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse. Para ello, la presente investigación se sustenta en el paradigma cuantitativo de tipo comparativo. Las técnicas de investigación son el análisis de documento y análisis de contenido. Los resultados develan que de tratarse de un proyecto que requiere de amplio volumen de procesamiento de datos, la opción es emplear Apache Spark, dada la facilidad para codificar y realizar numerosas tareas; adicionalmente se pudo develar que este framework dispone de abundante información y profesionales con competencias y experiencia para trabajar en este sistema. Por su parte Apache Flink se distingue por ser un framework diseñado para procesamiento de streaming, no cuenta con mucha información de fácil acceso y existe un número reducido de especialistas con dominio y experiencia en este campo; siendo dos desventajas para su selección. Además, es importante señalar que ambos framework son eficientes en la ejecución de tareas, aunque en cuanto a versatilidad se distingue Apache Spark, por cuanto que permite emplear su potencial en diversos lenguajes de programación. Asimismo, es de destacar que a través de la experimentación los mejores tiempos obtenidos para ambas herramientas se logran al modificar el storage y cuando se lo trabaja en un formato columnar.
publishDate	2021
dc.date.none.fl_str_mv	2021-10-05
dc.type.none.fl_str_mv	info:eu-repo/semantics/masterThesis info:eu-repo/semantics/acceptedVersion Trabajo de especializacion http://purl.org/coar/resource_type/c_bdcc info:ar-repo/semantics/tesisDeMaestria
format	masterThesis
status_str	acceptedVersion
dc.identifier.none.fl_str_mv	http://sedici.unlp.edu.ar/handle/10915/126780
url	http://sedici.unlp.edu.ar/handle/10915/126780
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by/4.0/ Creative Commons Attribution 4.0 International (CC BY 4.0)
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by/4.0/ Creative Commons Attribution 4.0 International (CC BY 4.0)
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP
reponame_str	SEDICI (UNLP)
collection	SEDICI (UNLP)
instname_str	Universidad Nacional de La Plata
instacron_str	UNLP
institution	UNLP
repository.name.fl_str_mv	SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv	alira@sedici.unlp.edu.ar
_version_	1866371848298561536
score	13.040872

Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse

Publicaciones similares