SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños

Autores
Chiarvetto Peralta, Lucila; Brignole, Nélida Beatriz
Año de publicación
2024
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
La decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos.
Sociedad Argentina de Informática e Investigación Operativa
Materia
Ciencias Informáticas
Bases de datos pequeñas
Algoritmos evolutivos
Distancia de Mahalanobis
Distancia de Wasserstein
Algoritmos genéticos
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/178458

id SEDICI_d0353c55cf20e798b31e5b9504e1de7a
oai_identifier_str oai:sedici.unlp.edu.ar:10915/178458
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeñosChiarvetto Peralta, LucilaBrignole, Nélida BeatrizCiencias InformáticasBases de datos pequeñasAlgoritmos evolutivosDistancia de MahalanobisDistancia de WassersteinAlgoritmos genéticosLa decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos.Sociedad Argentina de Informática e Investigación Operativa2024-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf28-41http://sedici.unlp.edu.ar/handle/10915/178458spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/17924info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-10-29T15:52:51Zoai:sedici.unlp.edu.ar:10915/178458Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-10-29 15:52:51.312SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
title SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
spellingShingle SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
Chiarvetto Peralta, Lucila
Ciencias Informáticas
Bases de datos pequeñas
Algoritmos evolutivos
Distancia de Mahalanobis
Distancia de Wasserstein
Algoritmos genéticos
title_short SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
title_full SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
title_fullStr SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
title_full_unstemmed SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
title_sort SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
dc.creator.none.fl_str_mv Chiarvetto Peralta, Lucila
Brignole, Nélida Beatriz
author Chiarvetto Peralta, Lucila
author_facet Chiarvetto Peralta, Lucila
Brignole, Nélida Beatriz
author_role author
author2 Brignole, Nélida Beatriz
author2_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
Bases de datos pequeñas
Algoritmos evolutivos
Distancia de Mahalanobis
Distancia de Wasserstein
Algoritmos genéticos
topic Ciencias Informáticas
Bases de datos pequeñas
Algoritmos evolutivos
Distancia de Mahalanobis
Distancia de Wasserstein
Algoritmos genéticos
dc.description.none.fl_txt_mv La decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos.
Sociedad Argentina de Informática e Investigación Operativa
description La decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos.
publishDate 2024
dc.date.none.fl_str_mv 2024-08
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/178458
url http://sedici.unlp.edu.ar/handle/10915/178458
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/17924
info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
28-41
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1847428769316339712
score 13.10058