Procesamiento de flujo de datos : Un caso de estudio: análisis en tiempo real usando datos geolocalizados

Autores
Fajardo, Hugo Manuel; Hasperué, Waldo
Año de publicación
2022
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea a cuando se reciben. Dos de las principales herramientas para el procesamiento de flujos de datos son Apache Spark y Apache Flink, estas herramientas serán el objeto de estudio del presente trabajo. El caso de estudio a desarrollar tiene por finalidad comparar distintos aspectos de ambas herramientas. Como caso de estudio se propone obtener publicaciones que incluyan las expresiones coronavirus y/o covid (SARSCoV- 2), y agrupar las mismas de acuerdo a su geolocalización, ya que esto permitirá monitorear la evolución de la enfermedad de acuerdo a la localización de los usuarios y su participación en distintos lugares de la web (redes sociales, comentarios en publicaciones, etc.).
XIII Workshop procesamiento de señales y sistemas de tiempo real (WPSSTR)
Red de Universidades con Carreras en Informática
Materia
Ciencias Informáticas
data streaming
Stream processing
Apache Spark
Apache Flink
coronavirus
Covid19
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/149428

id SEDICI_02af851e565160427ccf3d569f69e161
oai_identifier_str oai:sedici.unlp.edu.ar:10915/149428
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Procesamiento de flujo de datos : Un caso de estudio: análisis en tiempo real usando datos geolocalizadosFajardo, Hugo ManuelHasperué, WaldoCiencias Informáticasdata streamingStream processingApache SparkApache FlinkcoronavirusCovid19La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea a cuando se reciben. Dos de las principales herramientas para el procesamiento de flujos de datos son Apache Spark y Apache Flink, estas herramientas serán el objeto de estudio del presente trabajo. El caso de estudio a desarrollar tiene por finalidad comparar distintos aspectos de ambas herramientas. Como caso de estudio se propone obtener publicaciones que incluyan las expresiones coronavirus y/o covid (SARSCoV- 2), y agrupar las mismas de acuerdo a su geolocalización, ya que esto permitirá monitorear la evolución de la enfermedad de acuerdo a la localización de los usuarios y su participación en distintos lugares de la web (redes sociales, comentarios en publicaciones, etc.).XIII Workshop procesamiento de señales y sistemas de tiempo real (WPSSTR)Red de Universidades con Carreras en Informática2022-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf638-642http://sedici.unlp.edu.ar/handle/10915/149428spainfo:eu-repo/semantics/altIdentifier/isbn/978-987-1364-31-2info:eu-repo/semantics/reference/hdl/10915/149102info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:38:21Zoai:sedici.unlp.edu.ar:10915/149428Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:38:22.048SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Procesamiento de flujo de datos : Un caso de estudio: análisis en tiempo real usando datos geolocalizados
title Procesamiento de flujo de datos : Un caso de estudio: análisis en tiempo real usando datos geolocalizados
spellingShingle Procesamiento de flujo de datos : Un caso de estudio: análisis en tiempo real usando datos geolocalizados
Fajardo, Hugo Manuel
Ciencias Informáticas
data streaming
Stream processing
Apache Spark
Apache Flink
coronavirus
Covid19
title_short Procesamiento de flujo de datos : Un caso de estudio: análisis en tiempo real usando datos geolocalizados
title_full Procesamiento de flujo de datos : Un caso de estudio: análisis en tiempo real usando datos geolocalizados
title_fullStr Procesamiento de flujo de datos : Un caso de estudio: análisis en tiempo real usando datos geolocalizados
title_full_unstemmed Procesamiento de flujo de datos : Un caso de estudio: análisis en tiempo real usando datos geolocalizados
title_sort Procesamiento de flujo de datos : Un caso de estudio: análisis en tiempo real usando datos geolocalizados
dc.creator.none.fl_str_mv Fajardo, Hugo Manuel
Hasperué, Waldo
author Fajardo, Hugo Manuel
author_facet Fajardo, Hugo Manuel
Hasperué, Waldo
author_role author
author2 Hasperué, Waldo
author2_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
data streaming
Stream processing
Apache Spark
Apache Flink
coronavirus
Covid19
topic Ciencias Informáticas
data streaming
Stream processing
Apache Spark
Apache Flink
coronavirus
Covid19
dc.description.none.fl_txt_mv La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea a cuando se reciben. Dos de las principales herramientas para el procesamiento de flujos de datos son Apache Spark y Apache Flink, estas herramientas serán el objeto de estudio del presente trabajo. El caso de estudio a desarrollar tiene por finalidad comparar distintos aspectos de ambas herramientas. Como caso de estudio se propone obtener publicaciones que incluyan las expresiones coronavirus y/o covid (SARSCoV- 2), y agrupar las mismas de acuerdo a su geolocalización, ya que esto permitirá monitorear la evolución de la enfermedad de acuerdo a la localización de los usuarios y su participación en distintos lugares de la web (redes sociales, comentarios en publicaciones, etc.).
XIII Workshop procesamiento de señales y sistemas de tiempo real (WPSSTR)
Red de Universidades con Carreras en Informática
description La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea a cuando se reciben. Dos de las principales herramientas para el procesamiento de flujos de datos son Apache Spark y Apache Flink, estas herramientas serán el objeto de estudio del presente trabajo. El caso de estudio a desarrollar tiene por finalidad comparar distintos aspectos de ambas herramientas. Como caso de estudio se propone obtener publicaciones que incluyan las expresiones coronavirus y/o covid (SARSCoV- 2), y agrupar las mismas de acuerdo a su geolocalización, ya que esto permitirá monitorear la evolución de la enfermedad de acuerdo a la localización de los usuarios y su participación en distintos lugares de la web (redes sociales, comentarios en publicaciones, etc.).
publishDate 2022
dc.date.none.fl_str_mv 2022-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/149428
url http://sedici.unlp.edu.ar/handle/10915/149428
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/isbn/978-987-1364-31-2
info:eu-repo/semantics/reference/hdl/10915/149102
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
638-642
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844616258707783680
score 13.070432