Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data

Autores
Fajardo, Hugo Manuel
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
tesis de maestría
Estado
versión aceptada
Colaborador/a o director/a de tesis
Hasperué, Waldo
Descripción
La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink.
Especialista en Inteligencia de Datos orientada a Big Data
Universidad Nacional de La Plata
Facultad de Informática
Materia
Ciencias Informáticas
Streaming de Datos
Procesamiento de Flujos
Procesamiento Distribuido de Flujos de Datos
Apache Spark
Apache Flink
Apache Kafka
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/155135

id SEDICI_58675a29b9060fc1cc1c2bbd0504f9c3
oai_identifier_str oai:sedici.unlp.edu.ar:10915/155135
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big DataFajardo, Hugo ManuelCiencias InformáticasStreaming de DatosProcesamiento de FlujosProcesamiento Distribuido de Flujos de DatosApache SparkApache FlinkApache KafkaLa sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink.Especialista en Inteligencia de Datos orientada a Big DataUniversidad Nacional de La PlataFacultad de InformáticaHasperué, Waldo2023-05-09info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTrabajo de especializacionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/155135spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-03T11:12:06Zoai:sedici.unlp.edu.ar:10915/155135Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-03 11:12:07.057SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
spellingShingle Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
Fajardo, Hugo Manuel
Ciencias Informáticas
Streaming de Datos
Procesamiento de Flujos
Procesamiento Distribuido de Flujos de Datos
Apache Spark
Apache Flink
Apache Kafka
title_short Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_full Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_fullStr Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_full_unstemmed Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_sort Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
dc.creator.none.fl_str_mv Fajardo, Hugo Manuel
author Fajardo, Hugo Manuel
author_facet Fajardo, Hugo Manuel
author_role author
dc.contributor.none.fl_str_mv Hasperué, Waldo
dc.subject.none.fl_str_mv Ciencias Informáticas
Streaming de Datos
Procesamiento de Flujos
Procesamiento Distribuido de Flujos de Datos
Apache Spark
Apache Flink
Apache Kafka
topic Ciencias Informáticas
Streaming de Datos
Procesamiento de Flujos
Procesamiento Distribuido de Flujos de Datos
Apache Spark
Apache Flink
Apache Kafka
dc.description.none.fl_txt_mv La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink.
Especialista en Inteligencia de Datos orientada a Big Data
Universidad Nacional de La Plata
Facultad de Informática
description La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink.
publishDate 2023
dc.date.none.fl_str_mv 2023-05-09
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/acceptedVersion
Trabajo de especializacion
http://purl.org/coar/resource_type/c_bdcc
info:ar-repo/semantics/tesisDeMaestria
format masterThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/155135
url http://sedici.unlp.edu.ar/handle/10915/155135
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1842260625244291072
score 13.13397