SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños

Autores: Chiarvetto Peralta, Lucila; Brignole, Nélida Beatriz
Año de publicación: 2024
Idioma: español castellano
Tipo de recurso: documento de conferencia
Estado: versión publicada
Descripción: La decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos.
Sociedad Argentina de Informática e Investigación Operativa
Materia: Ciencias Informáticas
Bases de datos pequeñas
Algoritmos evolutivos
Distancia de Mahalanobis
Distancia de Wasserstein
Algoritmos genéticos
Nivel de accesibilidad: acceso abierto
Condiciones de uso: http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
Institución: Universidad Nacional de La Plata
OAI Identificador: oai:sedici.unlp.edu.ar:10915/178458

Acceder

id	SEDICI_d0353c55cf20e798b31e5b9504e1de7a
oai_identifier_str	oai:sedici.unlp.edu.ar:10915/178458
network_acronym_str	SEDICI
repository_id_str	1329
network_name_str	SEDICI (UNLP)
spelling	SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeñosChiarvetto Peralta, LucilaBrignole, Nélida BeatrizCiencias InformáticasBases de datos pequeñasAlgoritmos evolutivosDistancia de MahalanobisDistancia de WassersteinAlgoritmos genéticosLa decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos.Sociedad Argentina de Informática e Investigación Operativa2024-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf28-41http://sedici.unlp.edu.ar/handle/10915/178458spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/17924info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-27T11:41:51Zoai:sedici.unlp.edu.ar:10915/178458Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-27 11:41:52.249SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv	SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
title	SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
spellingShingle	SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños Chiarvetto Peralta, Lucila Ciencias Informáticas Bases de datos pequeñas Algoritmos evolutivos Distancia de Mahalanobis Distancia de Wasserstein Algoritmos genéticos
title_short	SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
title_full	SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
title_fullStr	SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
title_full_unstemmed	SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
title_sort	SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
dc.creator.none.fl_str_mv	Chiarvetto Peralta, Lucila Brignole, Nélida Beatriz
author	Chiarvetto Peralta, Lucila
author_facet	Chiarvetto Peralta, Lucila Brignole, Nélida Beatriz
author_role	author
author2	Brignole, Nélida Beatriz
author2_role	author
dc.subject.none.fl_str_mv	Ciencias Informáticas Bases de datos pequeñas Algoritmos evolutivos Distancia de Mahalanobis Distancia de Wasserstein Algoritmos genéticos
topic	Ciencias Informáticas Bases de datos pequeñas Algoritmos evolutivos Distancia de Mahalanobis Distancia de Wasserstein Algoritmos genéticos
dc.description.none.fl_txt_mv	La decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos. Sociedad Argentina de Informática e Investigación Operativa
description	La decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos.
publishDate	2024
dc.date.none.fl_str_mv	2024-08
dc.type.none.fl_str_mv	info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia
format	conferenceObject
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://sedici.unlp.edu.ar/handle/10915/178458
url	http://sedici.unlp.edu.ar/handle/10915/178458
dc.language.none.fl_str_mv	spa
language	spa
dc.relation.none.fl_str_mv	info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/17924 info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv	application/pdf 28-41
dc.source.none.fl_str_mv	reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP
reponame_str	SEDICI (UNLP)
collection	SEDICI (UNLP)
instname_str	Universidad Nacional de La Plata
instacron_str	UNLP
institution	UNLP
repository.name.fl_str_mv	SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv	alira@sedici.unlp.edu.ar
_version_	1866372116244332544
score	13.040872

SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños

Publicaciones similares