Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
- Autores
- Fajardo, Hugo Manuel
- Año de publicación
- 2023
- Idioma
- español castellano
- Tipo de recurso
- tesis de maestría
- Estado
- versión aceptada
- Colaborador/a o director/a de tesis
- Hasperué, Waldo
- Descripción
- La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink.
Especialista en Inteligencia de Datos orientada a Big Data
Universidad Nacional de La Plata
Facultad de Informática - Materia
-
Ciencias Informáticas
Streaming de Datos
Procesamiento de Flujos
Procesamiento Distribuido de Flujos de Datos
Apache Spark
Apache Flink
Apache Kafka - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/155135
Ver los metadatos del registro completo
id |
SEDICI_58675a29b9060fc1cc1c2bbd0504f9c3 |
---|---|
oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/155135 |
network_acronym_str |
SEDICI |
repository_id_str |
1329 |
network_name_str |
SEDICI (UNLP) |
spelling |
Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big DataFajardo, Hugo ManuelCiencias InformáticasStreaming de DatosProcesamiento de FlujosProcesamiento Distribuido de Flujos de DatosApache SparkApache FlinkApache KafkaLa sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink.Especialista en Inteligencia de Datos orientada a Big DataUniversidad Nacional de La PlataFacultad de InformáticaHasperué, Waldo2023-05-09info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTrabajo de especializacionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/155135spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-03T11:12:06Zoai:sedici.unlp.edu.ar:10915/155135Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-03 11:12:07.057SEDICI (UNLP) - Universidad Nacional de La Platafalse |
dc.title.none.fl_str_mv |
Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data |
title |
Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data |
spellingShingle |
Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data Fajardo, Hugo Manuel Ciencias Informáticas Streaming de Datos Procesamiento de Flujos Procesamiento Distribuido de Flujos de Datos Apache Spark Apache Flink Apache Kafka |
title_short |
Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data |
title_full |
Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data |
title_fullStr |
Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data |
title_full_unstemmed |
Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data |
title_sort |
Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data |
dc.creator.none.fl_str_mv |
Fajardo, Hugo Manuel |
author |
Fajardo, Hugo Manuel |
author_facet |
Fajardo, Hugo Manuel |
author_role |
author |
dc.contributor.none.fl_str_mv |
Hasperué, Waldo |
dc.subject.none.fl_str_mv |
Ciencias Informáticas Streaming de Datos Procesamiento de Flujos Procesamiento Distribuido de Flujos de Datos Apache Spark Apache Flink Apache Kafka |
topic |
Ciencias Informáticas Streaming de Datos Procesamiento de Flujos Procesamiento Distribuido de Flujos de Datos Apache Spark Apache Flink Apache Kafka |
dc.description.none.fl_txt_mv |
La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink. Especialista en Inteligencia de Datos orientada a Big Data Universidad Nacional de La Plata Facultad de Informática |
description |
La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-05-09 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/masterThesis info:eu-repo/semantics/acceptedVersion Trabajo de especializacion http://purl.org/coar/resource_type/c_bdcc info:ar-repo/semantics/tesisDeMaestria |
format |
masterThesis |
status_str |
acceptedVersion |
dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/155135 |
url |
http://sedici.unlp.edu.ar/handle/10915/155135 |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
reponame_str |
SEDICI (UNLP) |
collection |
SEDICI (UNLP) |
instname_str |
Universidad Nacional de La Plata |
instacron_str |
UNLP |
institution |
UNLP |
repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
_version_ |
1842260625244291072 |
score |
13.13397 |