Desbalance de datos en términos de atributos protegidos: análisis de su impacto en un clasificador lineal

Autores
Escalas, Eugenia; Echeveste, Rodrigo; Peterson, Victoria; Ferrante, Enzo
Año de publicación
2020
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
En este trabajo se busca estudiar el impacto del desbalance en los datos utilizados para entrenar un clasificador lineal, centrando el análisis en atributos protegidos. Dichos atributos, tales como género, grupo étnico o edad, no constituyen la clase objetivo del clasificador, sino que corresponden a. características demográficas que pueden ser o no parte del problema a resolver. Los resultados obtenidos mediante experimentos sintéticos simples muestran que la exactitud sobre una población dada se deteriora cuando se encuentra subrepresentada en el conjunto de datos de entrenamiento. En todos los casos, el rendimiento del clasificador sobre la población completa es máximo cuando este conjunto de datos se encuentra balanceado en lo que respecta, a. atributos protegidos. Estas conclusiones son el primer paso de un trabajo que busca mostrar cómo puede atenuarse este inconveniente incorporando penalizantes que desincentiven un aumento de la exactitud sobre un subconjunto de la población en desmedro de otra.
Sociedad Argentina de Informática
Materia
Ciencias Informáticas
Desbalance en los datos
Clasificador lineal
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/3.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/116436

id SEDICI_07dd846ded44cb99a327509974e897c1
oai_identifier_str oai:sedici.unlp.edu.ar:10915/116436
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Desbalance de datos en términos de atributos protegidos: análisis de su impacto en un clasificador linealEscalas, EugeniaEcheveste, RodrigoPeterson, VictoriaFerrante, EnzoCiencias InformáticasDesbalance en los datosClasificador linealEn este trabajo se busca estudiar el impacto del desbalance en los datos utilizados para entrenar un clasificador lineal, centrando el análisis en atributos protegidos. Dichos atributos, tales como género, grupo étnico o edad, no constituyen la clase objetivo del clasificador, sino que corresponden a. características demográficas que pueden ser o no parte del problema a resolver. Los resultados obtenidos mediante experimentos sintéticos simples muestran que la exactitud sobre una población dada se deteriora cuando se encuentra subrepresentada en el conjunto de datos de entrenamiento. En todos los casos, el rendimiento del clasificador sobre la población completa es máximo cuando este conjunto de datos se encuentra balanceado en lo que respecta, a. atributos protegidos. Estas conclusiones son el primer paso de un trabajo que busca mostrar cómo puede atenuarse este inconveniente incorporando penalizantes que desincentiven un aumento de la exactitud sobre un subconjunto de la población en desmedro de otra.Sociedad Argentina de Informática2020-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf177-181http://sedici.unlp.edu.ar/handle/10915/116436spainfo:eu-repo/semantics/altIdentifier/url/http://49jaiio.sadio.org.ar/pdfs/asai/ASAI-16.pdfinfo:eu-repo/semantics/altIdentifier/issn/2451-7585info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/3.0/Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported (CC BY-NC-SA 3.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-10-15T11:19:03Zoai:sedici.unlp.edu.ar:10915/116436Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-10-15 11:19:03.995SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Desbalance de datos en términos de atributos protegidos: análisis de su impacto en un clasificador lineal
title Desbalance de datos en términos de atributos protegidos: análisis de su impacto en un clasificador lineal
spellingShingle Desbalance de datos en términos de atributos protegidos: análisis de su impacto en un clasificador lineal
Escalas, Eugenia
Ciencias Informáticas
Desbalance en los datos
Clasificador lineal
title_short Desbalance de datos en términos de atributos protegidos: análisis de su impacto en un clasificador lineal
title_full Desbalance de datos en términos de atributos protegidos: análisis de su impacto en un clasificador lineal
title_fullStr Desbalance de datos en términos de atributos protegidos: análisis de su impacto en un clasificador lineal
title_full_unstemmed Desbalance de datos en términos de atributos protegidos: análisis de su impacto en un clasificador lineal
title_sort Desbalance de datos en términos de atributos protegidos: análisis de su impacto en un clasificador lineal
dc.creator.none.fl_str_mv Escalas, Eugenia
Echeveste, Rodrigo
Peterson, Victoria
Ferrante, Enzo
author Escalas, Eugenia
author_facet Escalas, Eugenia
Echeveste, Rodrigo
Peterson, Victoria
Ferrante, Enzo
author_role author
author2 Echeveste, Rodrigo
Peterson, Victoria
Ferrante, Enzo
author2_role author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Desbalance en los datos
Clasificador lineal
topic Ciencias Informáticas
Desbalance en los datos
Clasificador lineal
dc.description.none.fl_txt_mv En este trabajo se busca estudiar el impacto del desbalance en los datos utilizados para entrenar un clasificador lineal, centrando el análisis en atributos protegidos. Dichos atributos, tales como género, grupo étnico o edad, no constituyen la clase objetivo del clasificador, sino que corresponden a. características demográficas que pueden ser o no parte del problema a resolver. Los resultados obtenidos mediante experimentos sintéticos simples muestran que la exactitud sobre una población dada se deteriora cuando se encuentra subrepresentada en el conjunto de datos de entrenamiento. En todos los casos, el rendimiento del clasificador sobre la población completa es máximo cuando este conjunto de datos se encuentra balanceado en lo que respecta, a. atributos protegidos. Estas conclusiones son el primer paso de un trabajo que busca mostrar cómo puede atenuarse este inconveniente incorporando penalizantes que desincentiven un aumento de la exactitud sobre un subconjunto de la población en desmedro de otra.
Sociedad Argentina de Informática
description En este trabajo se busca estudiar el impacto del desbalance en los datos utilizados para entrenar un clasificador lineal, centrando el análisis en atributos protegidos. Dichos atributos, tales como género, grupo étnico o edad, no constituyen la clase objetivo del clasificador, sino que corresponden a. características demográficas que pueden ser o no parte del problema a resolver. Los resultados obtenidos mediante experimentos sintéticos simples muestran que la exactitud sobre una población dada se deteriora cuando se encuentra subrepresentada en el conjunto de datos de entrenamiento. En todos los casos, el rendimiento del clasificador sobre la población completa es máximo cuando este conjunto de datos se encuentra balanceado en lo que respecta, a. atributos protegidos. Estas conclusiones son el primer paso de un trabajo que busca mostrar cómo puede atenuarse este inconveniente incorporando penalizantes que desincentiven un aumento de la exactitud sobre un subconjunto de la población en desmedro de otra.
publishDate 2020
dc.date.none.fl_str_mv 2020-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/116436
url http://sedici.unlp.edu.ar/handle/10915/116436
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/http://49jaiio.sadio.org.ar/pdfs/asai/ASAI-16.pdf
info:eu-repo/semantics/altIdentifier/issn/2451-7585
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/3.0/
Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported (CC BY-NC-SA 3.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/3.0/
Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported (CC BY-NC-SA 3.0)
dc.format.none.fl_str_mv application/pdf
177-181
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1846064248645484544
score 13.22299