SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños
- Autores
- Chiarvetto Peralta, Lucila; Brignole, Nélida Beatriz
- Año de publicación
- 2024
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- La decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos.
Sociedad Argentina de Informática e Investigación Operativa - Materia
-
Ciencias Informáticas
Bases de datos pequeñas
Algoritmos evolutivos
Distancia de Mahalanobis
Distancia de Wasserstein
Algoritmos genéticos - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
.jpg)
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/178458
Ver los metadatos del registro completo
| id |
SEDICI_d0353c55cf20e798b31e5b9504e1de7a |
|---|---|
| oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/178458 |
| network_acronym_str |
SEDICI |
| repository_id_str |
1329 |
| network_name_str |
SEDICI (UNLP) |
| spelling |
SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeñosChiarvetto Peralta, LucilaBrignole, Nélida BeatrizCiencias InformáticasBases de datos pequeñasAlgoritmos evolutivosDistancia de MahalanobisDistancia de WassersteinAlgoritmos genéticosLa decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos.Sociedad Argentina de Informática e Investigación Operativa2024-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf28-41http://sedici.unlp.edu.ar/handle/10915/178458spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/17924info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-10-29T15:52:51Zoai:sedici.unlp.edu.ar:10915/178458Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-10-29 15:52:51.312SEDICI (UNLP) - Universidad Nacional de La Platafalse |
| dc.title.none.fl_str_mv |
SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños |
| title |
SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños |
| spellingShingle |
SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños Chiarvetto Peralta, Lucila Ciencias Informáticas Bases de datos pequeñas Algoritmos evolutivos Distancia de Mahalanobis Distancia de Wasserstein Algoritmos genéticos |
| title_short |
SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños |
| title_full |
SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños |
| title_fullStr |
SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños |
| title_full_unstemmed |
SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños |
| title_sort |
SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños |
| dc.creator.none.fl_str_mv |
Chiarvetto Peralta, Lucila Brignole, Nélida Beatriz |
| author |
Chiarvetto Peralta, Lucila |
| author_facet |
Chiarvetto Peralta, Lucila Brignole, Nélida Beatriz |
| author_role |
author |
| author2 |
Brignole, Nélida Beatriz |
| author2_role |
author |
| dc.subject.none.fl_str_mv |
Ciencias Informáticas Bases de datos pequeñas Algoritmos evolutivos Distancia de Mahalanobis Distancia de Wasserstein Algoritmos genéticos |
| topic |
Ciencias Informáticas Bases de datos pequeñas Algoritmos evolutivos Distancia de Mahalanobis Distancia de Wasserstein Algoritmos genéticos |
| dc.description.none.fl_txt_mv |
La decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos. Sociedad Argentina de Informática e Investigación Operativa |
| description |
La decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-08 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
| format |
conferenceObject |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/178458 |
| url |
http://sedici.unlp.edu.ar/handle/10915/178458 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/17924 info:eu-repo/semantics/altIdentifier/issn/2451-7496 |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| dc.format.none.fl_str_mv |
application/pdf 28-41 |
| dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
| reponame_str |
SEDICI (UNLP) |
| collection |
SEDICI (UNLP) |
| instname_str |
Universidad Nacional de La Plata |
| instacron_str |
UNLP |
| institution |
UNLP |
| repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
| repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
| _version_ |
1847428769316339712 |
| score |
13.10058 |