D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en spark

Autores
Molina, Roberto; Hasperué, Waldo
Año de publicación
2018
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
En este trabajo se presenta una prueba de concepto de un algoritmo de clustering basado en densidad, denominado D3CAS, el cual fue implementado para ser ejecutado bajo el framework Spark Streaming y que permite el procesamiento de flujos de datos. La principal característica del algoritmo presentado es que es dinámico, es decir selecciona automáticamente el número de clusters del flujo de datos. El algoritmo fue probado datasets de CLUTO, midiendo la calidad de los clusters obtenidos. Los resultados, obtenidos en un ambiente virtualizado, fueron comparados con otro algoritmo de clustering (CluStream), demostrando que D3CAS arroja mejores resultados.
XV Workshop Bases de Datos y Minería de Datos (WBDDM)
Red de Universidades con Carreras en Informática (RedUNCI)
Materia
Ciencias Informáticas
clustering
spark
streaming processing
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/73223

id SEDICI_38845da43761df5076d30b6a2580c4bf
oai_identifier_str oai:sedici.unlp.edu.ar:10915/73223
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en sparkMolina, RobertoHasperué, WaldoCiencias Informáticasclusteringsparkstreaming processingEn este trabajo se presenta una prueba de concepto de un algoritmo de clustering basado en densidad, denominado D3CAS, el cual fue implementado para ser ejecutado bajo el framework Spark Streaming y que permite el procesamiento de flujos de datos. La principal característica del algoritmo presentado es que es dinámico, es decir selecciona automáticamente el número de clusters del flujo de datos. El algoritmo fue probado datasets de CLUTO, midiendo la calidad de los clusters obtenidos. Los resultados, obtenidos en un ambiente virtualizado, fueron comparados con otro algoritmo de clustering (CluStream), demostrando que D3CAS arroja mejores resultados.XV Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI)2018-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf452-461http://sedici.unlp.edu.ar/handle/10915/73223spainfo:eu-repo/semantics/altIdentifier/isbn/978-950-658-472-6info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-10-22T16:53:14Zoai:sedici.unlp.edu.ar:10915/73223Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-10-22 16:53:14.442SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en spark
title D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en spark
spellingShingle D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en spark
Molina, Roberto
Ciencias Informáticas
clustering
spark
streaming processing
title_short D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en spark
title_full D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en spark
title_fullStr D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en spark
title_full_unstemmed D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en spark
title_sort D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en spark
dc.creator.none.fl_str_mv Molina, Roberto
Hasperué, Waldo
author Molina, Roberto
author_facet Molina, Roberto
Hasperué, Waldo
author_role author
author2 Hasperué, Waldo
author2_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
clustering
spark
streaming processing
topic Ciencias Informáticas
clustering
spark
streaming processing
dc.description.none.fl_txt_mv En este trabajo se presenta una prueba de concepto de un algoritmo de clustering basado en densidad, denominado D3CAS, el cual fue implementado para ser ejecutado bajo el framework Spark Streaming y que permite el procesamiento de flujos de datos. La principal característica del algoritmo presentado es que es dinámico, es decir selecciona automáticamente el número de clusters del flujo de datos. El algoritmo fue probado datasets de CLUTO, midiendo la calidad de los clusters obtenidos. Los resultados, obtenidos en un ambiente virtualizado, fueron comparados con otro algoritmo de clustering (CluStream), demostrando que D3CAS arroja mejores resultados.
XV Workshop Bases de Datos y Minería de Datos (WBDDM)
Red de Universidades con Carreras en Informática (RedUNCI)
description En este trabajo se presenta una prueba de concepto de un algoritmo de clustering basado en densidad, denominado D3CAS, el cual fue implementado para ser ejecutado bajo el framework Spark Streaming y que permite el procesamiento de flujos de datos. La principal característica del algoritmo presentado es que es dinámico, es decir selecciona automáticamente el número de clusters del flujo de datos. El algoritmo fue probado datasets de CLUTO, midiendo la calidad de los clusters obtenidos. Los resultados, obtenidos en un ambiente virtualizado, fueron comparados con otro algoritmo de clustering (CluStream), demostrando que D3CAS arroja mejores resultados.
publishDate 2018
dc.date.none.fl_str_mv 2018-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/73223
url http://sedici.unlp.edu.ar/handle/10915/73223
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/isbn/978-950-658-472-6
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
452-461
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1846783108926406656
score 12.727494