Metaheurísticas en grandes volúmenes de datos combinados con streaming de datos en tiempo real

Autores
Di Pasquale, Ricardo; Marenco, Javier
Año de publicación
2019
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
En los últimos años el procesamiento de corrientes (streams) de datos en tiempo real se ha incorporado definitivamente a los modelos de procesamiento Big Data existentes. Este tipo de procesamiento se da cuando uno o muchos emisores generan una corriente de datos en tiempo real de tal manera que si un receptor deja de “escuchar” un momento una de las corrientes de datos, la información que se omitió en esa ventana de tiempo se torna irrecuperable. En este trabajo estamos interesados en estudiar las implicancias de incorporar el modelo Big Data de procesamiento de datos en metaheurísticas aplicadas a grandes volúmentes de datos estáticos. Particularmente, se ha tomado una aplicación de descubrimiento de reglas en bases de datos (KDD) implementada mediante metaheurísticas distribuidas en plataforma Apache Spark. En dicha aplicación se busca descubrir reglas de asociación en una base de datos grande, por lo que la implementación distribuida se clasifica como un análisis de datos con estilo Big Data. A la aplicación citada se le agrega la complejidad de procesar streamings de datos, que incorporan hechos a la base de datos de manera compatible con la información existente. Si, adicionalmente, la ponderación que se hace de la información más reciente (en tiempo real) es mayor a la valuación de la información histórica, se evidencia que la naturaleza del problema ha mutado. Muchas de las facilidades y pre-procesamientos posibles quedan invalidados por la incertidumbre generada por los datos a incorporarse. Se presentarán los resultados obtenidos y las principales diferencias en los modelos de procesamiento. Se discutirá también si los problemas clásicos de optimización, o de data mining, o los que están en las fronteras pueden seguir siendo tratados de la misma manera al considerar el procesamiento de streaming en tiempo real, o si deben cambiarse los mecanismos de procesamiento de manera radical.
Sociedad Argentina de Informática e Investigación Operativa
Materia
Ciencias Informáticas
Streaming
Big data
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-sa/3.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/89655

id SEDICI_b96f927676410427696d260362e01a56
oai_identifier_str oai:sedici.unlp.edu.ar:10915/89655
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Metaheurísticas en grandes volúmenes de datos combinados con streaming de datos en tiempo realDi Pasquale, RicardoMarenco, JavierCiencias InformáticasStreamingBig dataEn los últimos años el procesamiento de corrientes (streams) de datos en tiempo real se ha incorporado definitivamente a los modelos de procesamiento Big Data existentes. Este tipo de procesamiento se da cuando uno o muchos emisores generan una corriente de datos en tiempo real de tal manera que si un receptor deja de “escuchar” un momento una de las corrientes de datos, la información que se omitió en esa ventana de tiempo se torna irrecuperable. En este trabajo estamos interesados en estudiar las implicancias de incorporar el modelo Big Data de procesamiento de datos en metaheurísticas aplicadas a grandes volúmentes de datos estáticos. Particularmente, se ha tomado una aplicación de descubrimiento de reglas en bases de datos (KDD) implementada mediante metaheurísticas distribuidas en plataforma Apache Spark. En dicha aplicación se busca descubrir reglas de asociación en una base de datos grande, por lo que la implementación distribuida se clasifica como un análisis de datos con estilo Big Data. A la aplicación citada se le agrega la complejidad de procesar streamings de datos, que incorporan hechos a la base de datos de manera compatible con la información existente. Si, adicionalmente, la ponderación que se hace de la información más reciente (en tiempo real) es mayor a la valuación de la información histórica, se evidencia que la naturaleza del problema ha mutado. Muchas de las facilidades y pre-procesamientos posibles quedan invalidados por la incertidumbre generada por los datos a incorporarse. Se presentarán los resultados obtenidos y las principales diferencias en los modelos de procesamiento. Se discutirá también si los problemas clásicos de optimización, o de data mining, o los que están en las fronteras pueden seguir siendo tratados de la misma manera al considerar el procesamiento de streaming en tiempo real, o si deben cambiarse los mecanismos de procesamiento de manera radical.Sociedad Argentina de Informática e Investigación Operativa2019-09info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionResumenhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf143http://sedici.unlp.edu.ar/handle/10915/89655spainfo:eu-repo/semantics/altIdentifier/issn/2618-3277info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-sa/3.0/Creative Commons Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-03T10:50:38Zoai:sedici.unlp.edu.ar:10915/89655Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-03 10:50:38.407SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Metaheurísticas en grandes volúmenes de datos combinados con streaming de datos en tiempo real
title Metaheurísticas en grandes volúmenes de datos combinados con streaming de datos en tiempo real
spellingShingle Metaheurísticas en grandes volúmenes de datos combinados con streaming de datos en tiempo real
Di Pasquale, Ricardo
Ciencias Informáticas
Streaming
Big data
title_short Metaheurísticas en grandes volúmenes de datos combinados con streaming de datos en tiempo real
title_full Metaheurísticas en grandes volúmenes de datos combinados con streaming de datos en tiempo real
title_fullStr Metaheurísticas en grandes volúmenes de datos combinados con streaming de datos en tiempo real
title_full_unstemmed Metaheurísticas en grandes volúmenes de datos combinados con streaming de datos en tiempo real
title_sort Metaheurísticas en grandes volúmenes de datos combinados con streaming de datos en tiempo real
dc.creator.none.fl_str_mv Di Pasquale, Ricardo
Marenco, Javier
author Di Pasquale, Ricardo
author_facet Di Pasquale, Ricardo
Marenco, Javier
author_role author
author2 Marenco, Javier
author2_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
Streaming
Big data
topic Ciencias Informáticas
Streaming
Big data
dc.description.none.fl_txt_mv En los últimos años el procesamiento de corrientes (streams) de datos en tiempo real se ha incorporado definitivamente a los modelos de procesamiento Big Data existentes. Este tipo de procesamiento se da cuando uno o muchos emisores generan una corriente de datos en tiempo real de tal manera que si un receptor deja de “escuchar” un momento una de las corrientes de datos, la información que se omitió en esa ventana de tiempo se torna irrecuperable. En este trabajo estamos interesados en estudiar las implicancias de incorporar el modelo Big Data de procesamiento de datos en metaheurísticas aplicadas a grandes volúmentes de datos estáticos. Particularmente, se ha tomado una aplicación de descubrimiento de reglas en bases de datos (KDD) implementada mediante metaheurísticas distribuidas en plataforma Apache Spark. En dicha aplicación se busca descubrir reglas de asociación en una base de datos grande, por lo que la implementación distribuida se clasifica como un análisis de datos con estilo Big Data. A la aplicación citada se le agrega la complejidad de procesar streamings de datos, que incorporan hechos a la base de datos de manera compatible con la información existente. Si, adicionalmente, la ponderación que se hace de la información más reciente (en tiempo real) es mayor a la valuación de la información histórica, se evidencia que la naturaleza del problema ha mutado. Muchas de las facilidades y pre-procesamientos posibles quedan invalidados por la incertidumbre generada por los datos a incorporarse. Se presentarán los resultados obtenidos y las principales diferencias en los modelos de procesamiento. Se discutirá también si los problemas clásicos de optimización, o de data mining, o los que están en las fronteras pueden seguir siendo tratados de la misma manera al considerar el procesamiento de streaming en tiempo real, o si deben cambiarse los mecanismos de procesamiento de manera radical.
Sociedad Argentina de Informática e Investigación Operativa
description En los últimos años el procesamiento de corrientes (streams) de datos en tiempo real se ha incorporado definitivamente a los modelos de procesamiento Big Data existentes. Este tipo de procesamiento se da cuando uno o muchos emisores generan una corriente de datos en tiempo real de tal manera que si un receptor deja de “escuchar” un momento una de las corrientes de datos, la información que se omitió en esa ventana de tiempo se torna irrecuperable. En este trabajo estamos interesados en estudiar las implicancias de incorporar el modelo Big Data de procesamiento de datos en metaheurísticas aplicadas a grandes volúmentes de datos estáticos. Particularmente, se ha tomado una aplicación de descubrimiento de reglas en bases de datos (KDD) implementada mediante metaheurísticas distribuidas en plataforma Apache Spark. En dicha aplicación se busca descubrir reglas de asociación en una base de datos grande, por lo que la implementación distribuida se clasifica como un análisis de datos con estilo Big Data. A la aplicación citada se le agrega la complejidad de procesar streamings de datos, que incorporan hechos a la base de datos de manera compatible con la información existente. Si, adicionalmente, la ponderación que se hace de la información más reciente (en tiempo real) es mayor a la valuación de la información histórica, se evidencia que la naturaleza del problema ha mutado. Muchas de las facilidades y pre-procesamientos posibles quedan invalidados por la incertidumbre generada por los datos a incorporarse. Se presentarán los resultados obtenidos y las principales diferencias en los modelos de procesamiento. Se discutirá también si los problemas clásicos de optimización, o de data mining, o los que están en las fronteras pueden seguir siendo tratados de la misma manera al considerar el procesamiento de streaming en tiempo real, o si deben cambiarse los mecanismos de procesamiento de manera radical.
publishDate 2019
dc.date.none.fl_str_mv 2019-09
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Resumen
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/89655
url http://sedici.unlp.edu.ar/handle/10915/89655
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/issn/2618-3277
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-sa/3.0/
Creative Commons Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-sa/3.0/
Creative Commons Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0)
dc.format.none.fl_str_mv application/pdf
143
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1842260384385335296
score 13.13397