Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias

Autores
Morales, Arturo Leonardo; Dipierri, J. E.; Albeck, Maria Ester; Alfaro, E. L.; Chaves, Estela Raquel; Delrieux, Claudio Augusto; Ramallo, Virginia
Año de publicación
2019
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Los apellidos reconocen un origen geográfico-lingüístico y pueden utilizarse como discriminantes de procedencia. Al estar distribuidos por toda la población, permiten una visión demográfica global. Nuestro objetivo fue clasificar según origen más probable e identificar patrones de agrupamiento espacial de los apellidos de votantes. Se analizaron 30.530.194 personas (Padrón Electoral, 2015), portadoras de 975.112 nombres de familia diferentes. Como referencia se emplearon dos listas previas (Monasterio, 2017; Albeck et al, 2017), con 65.023 apellidos ya clasificados. Los datos se procesaron en forma automática, identificando coincidencias y asignando orígenes. Así, 24.533.521 personas con apellidos clasificados se georreferenciaron a partir de sus lugares de votación. Para los gráficos de distribución se emplearon el algoritmo Fisher-Jenks o método de rupturas naturales (para generar intervalos que mejor agrupen valores similares y maximicen diferencias entre clases) y el de intervalos manuales (para generar mapas a magnitudes comparables). Para optimizar el tiempo de clasificación de los apellidos que quedaron sin asignación de origen, desarrollamos una herramienta analítica probabilística basada en el teorema de Bayes, usando algoritmos de aprendizaje de máquina. El sistema se entrenó con las dos listas ya mencionadas, creando n-gramas (secuencias en las que pueden descomponerse los apellidos, con una longitud n de letras) a partir del conjunto con origen conocido. En la validación, se utilizó n=3 y n=4, obteniendo un índice de precisión de clasificación de 0.80. Estos valores proporcionan el mayor grado de especificidad y permiten agilizar trabajo en grandes volúmenes de datos.
Fil: Morales, Arturo Leonardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico de Ciencias Sociales y Humanas; Argentina. Universidad Nacional de la Patagonia "San Juan Bosco". Facultad de Ingeniería - Sede Trelew.; Argentina
Fil: Dipierri, J. E.. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; Argentina
Fil: Albeck, Maria Ester. Universidad Nacional de Jujuy. Instituto de Ecorregiones Andinas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Ecorregiones Andinas; Argentina
Fil: Alfaro, E. L.. Universidad Nacional de Jujuy. Instituto de Ecorregiones Andinas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Ecorregiones Andinas; Argentina. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; Argentina
Fil: Chaves, Estela Raquel. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; Argentina
Fil: Delrieux, Claudio Augusto. Universidad Nacional del Sur; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina
Fil: Ramallo, Virginia. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico de Ciencias Sociales y Humanas; Argentina
XIV Jornadas Nacionales de Antropología Biológica
San Salvador de Jujuy
Argentina
Asociación de Antropología Biológica Argentina
Materia
APELLIDOS
APRENDIZAJE DE MAQUINA
CLASIFICACIÓN AUTOMÁTICA
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/135416

id CONICETDig_7b564869f54acf8b6223000360f5ce75
oai_identifier_str oai:ri.conicet.gov.ar:11336/135416
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuenciasMorales, Arturo LeonardoDipierri, J. E.Albeck, Maria EsterAlfaro, E. L.Chaves, Estela RaquelDelrieux, Claudio AugustoRamallo, VirginiaAPELLIDOSAPRENDIZAJE DE MAQUINACLASIFICACIÓN AUTOMÁTICAhttps://purl.org/becyt/ford/5.9https://purl.org/becyt/ford/5Los apellidos reconocen un origen geográfico-lingüístico y pueden utilizarse como discriminantes de procedencia. Al estar distribuidos por toda la población, permiten una visión demográfica global. Nuestro objetivo fue clasificar según origen más probable e identificar patrones de agrupamiento espacial de los apellidos de votantes. Se analizaron 30.530.194 personas (Padrón Electoral, 2015), portadoras de 975.112 nombres de familia diferentes. Como referencia se emplearon dos listas previas (Monasterio, 2017; Albeck et al, 2017), con 65.023 apellidos ya clasificados. Los datos se procesaron en forma automática, identificando coincidencias y asignando orígenes. Así, 24.533.521 personas con apellidos clasificados se georreferenciaron a partir de sus lugares de votación. Para los gráficos de distribución se emplearon el algoritmo Fisher-Jenks o método de rupturas naturales (para generar intervalos que mejor agrupen valores similares y maximicen diferencias entre clases) y el de intervalos manuales (para generar mapas a magnitudes comparables). Para optimizar el tiempo de clasificación de los apellidos que quedaron sin asignación de origen, desarrollamos una herramienta analítica probabilística basada en el teorema de Bayes, usando algoritmos de aprendizaje de máquina. El sistema se entrenó con las dos listas ya mencionadas, creando n-gramas (secuencias en las que pueden descomponerse los apellidos, con una longitud n de letras) a partir del conjunto con origen conocido. En la validación, se utilizó n=3 y n=4, obteniendo un índice de precisión de clasificación de 0.80. Estos valores proporcionan el mayor grado de especificidad y permiten agilizar trabajo en grandes volúmenes de datos.Fil: Morales, Arturo Leonardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico de Ciencias Sociales y Humanas; Argentina. Universidad Nacional de la Patagonia "San Juan Bosco". Facultad de Ingeniería - Sede Trelew.; ArgentinaFil: Dipierri, J. E.. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; ArgentinaFil: Albeck, Maria Ester. Universidad Nacional de Jujuy. Instituto de Ecorregiones Andinas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Ecorregiones Andinas; ArgentinaFil: Alfaro, E. L.. Universidad Nacional de Jujuy. Instituto de Ecorregiones Andinas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Ecorregiones Andinas; Argentina. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; ArgentinaFil: Chaves, Estela Raquel. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; ArgentinaFil: Delrieux, Claudio Augusto. Universidad Nacional del Sur; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; ArgentinaFil: Ramallo, Virginia. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico de Ciencias Sociales y Humanas; ArgentinaXIV Jornadas Nacionales de Antropología BiológicaSan Salvador de JujuyArgentinaAsociación de Antropología Biológica ArgentinaAsociación de Antropología Biológica ArgentinaAlfaro Gómez, Emma LauraRevollo, Gabriela BeatrizChaves, Estela Raquel2019info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/conferenceObjectJornadaBookhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfapplication/pdfapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/135416Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias; XIV Jornadas Nacionales de Antropología Biológica; San Salvador de Jujuy; Argentina; 2019; 164-164978-987-27445-3-3CONICET DigitalCONICETspainfo:eu-repo/semantics/altIdentifier/url/https://3b87ab56-9ab6-4587-8556-542f7dc659db.filesusr.com/ugd/4ab91e_97439a7e868e47f6b090d270df48fd3c.pdfNacionalinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T09:39:37Zoai:ri.conicet.gov.ar:11336/135416instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 09:39:38.143CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias
title Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias
spellingShingle Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias
Morales, Arturo Leonardo
APELLIDOS
APRENDIZAJE DE MAQUINA
CLASIFICACIÓN AUTOMÁTICA
title_short Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias
title_full Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias
title_fullStr Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias
title_full_unstemmed Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias
title_sort Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias
dc.creator.none.fl_str_mv Morales, Arturo Leonardo
Dipierri, J. E.
Albeck, Maria Ester
Alfaro, E. L.
Chaves, Estela Raquel
Delrieux, Claudio Augusto
Ramallo, Virginia
author Morales, Arturo Leonardo
author_facet Morales, Arturo Leonardo
Dipierri, J. E.
Albeck, Maria Ester
Alfaro, E. L.
Chaves, Estela Raquel
Delrieux, Claudio Augusto
Ramallo, Virginia
author_role author
author2 Dipierri, J. E.
Albeck, Maria Ester
Alfaro, E. L.
Chaves, Estela Raquel
Delrieux, Claudio Augusto
Ramallo, Virginia
author2_role author
author
author
author
author
author
dc.contributor.none.fl_str_mv Alfaro Gómez, Emma Laura
Revollo, Gabriela Beatriz
Chaves, Estela Raquel
dc.subject.none.fl_str_mv APELLIDOS
APRENDIZAJE DE MAQUINA
CLASIFICACIÓN AUTOMÁTICA
topic APELLIDOS
APRENDIZAJE DE MAQUINA
CLASIFICACIÓN AUTOMÁTICA
purl_subject.fl_str_mv https://purl.org/becyt/ford/5.9
https://purl.org/becyt/ford/5
dc.description.none.fl_txt_mv Los apellidos reconocen un origen geográfico-lingüístico y pueden utilizarse como discriminantes de procedencia. Al estar distribuidos por toda la población, permiten una visión demográfica global. Nuestro objetivo fue clasificar según origen más probable e identificar patrones de agrupamiento espacial de los apellidos de votantes. Se analizaron 30.530.194 personas (Padrón Electoral, 2015), portadoras de 975.112 nombres de familia diferentes. Como referencia se emplearon dos listas previas (Monasterio, 2017; Albeck et al, 2017), con 65.023 apellidos ya clasificados. Los datos se procesaron en forma automática, identificando coincidencias y asignando orígenes. Así, 24.533.521 personas con apellidos clasificados se georreferenciaron a partir de sus lugares de votación. Para los gráficos de distribución se emplearon el algoritmo Fisher-Jenks o método de rupturas naturales (para generar intervalos que mejor agrupen valores similares y maximicen diferencias entre clases) y el de intervalos manuales (para generar mapas a magnitudes comparables). Para optimizar el tiempo de clasificación de los apellidos que quedaron sin asignación de origen, desarrollamos una herramienta analítica probabilística basada en el teorema de Bayes, usando algoritmos de aprendizaje de máquina. El sistema se entrenó con las dos listas ya mencionadas, creando n-gramas (secuencias en las que pueden descomponerse los apellidos, con una longitud n de letras) a partir del conjunto con origen conocido. En la validación, se utilizó n=3 y n=4, obteniendo un índice de precisión de clasificación de 0.80. Estos valores proporcionan el mayor grado de especificidad y permiten agilizar trabajo en grandes volúmenes de datos.
Fil: Morales, Arturo Leonardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico de Ciencias Sociales y Humanas; Argentina. Universidad Nacional de la Patagonia "San Juan Bosco". Facultad de Ingeniería - Sede Trelew.; Argentina
Fil: Dipierri, J. E.. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; Argentina
Fil: Albeck, Maria Ester. Universidad Nacional de Jujuy. Instituto de Ecorregiones Andinas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Ecorregiones Andinas; Argentina
Fil: Alfaro, E. L.. Universidad Nacional de Jujuy. Instituto de Ecorregiones Andinas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Ecorregiones Andinas; Argentina. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; Argentina
Fil: Chaves, Estela Raquel. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; Argentina
Fil: Delrieux, Claudio Augusto. Universidad Nacional del Sur; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina
Fil: Ramallo, Virginia. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico de Ciencias Sociales y Humanas; Argentina
XIV Jornadas Nacionales de Antropología Biológica
San Salvador de Jujuy
Argentina
Asociación de Antropología Biológica Argentina
description Los apellidos reconocen un origen geográfico-lingüístico y pueden utilizarse como discriminantes de procedencia. Al estar distribuidos por toda la población, permiten una visión demográfica global. Nuestro objetivo fue clasificar según origen más probable e identificar patrones de agrupamiento espacial de los apellidos de votantes. Se analizaron 30.530.194 personas (Padrón Electoral, 2015), portadoras de 975.112 nombres de familia diferentes. Como referencia se emplearon dos listas previas (Monasterio, 2017; Albeck et al, 2017), con 65.023 apellidos ya clasificados. Los datos se procesaron en forma automática, identificando coincidencias y asignando orígenes. Así, 24.533.521 personas con apellidos clasificados se georreferenciaron a partir de sus lugares de votación. Para los gráficos de distribución se emplearon el algoritmo Fisher-Jenks o método de rupturas naturales (para generar intervalos que mejor agrupen valores similares y maximicen diferencias entre clases) y el de intervalos manuales (para generar mapas a magnitudes comparables). Para optimizar el tiempo de clasificación de los apellidos que quedaron sin asignación de origen, desarrollamos una herramienta analítica probabilística basada en el teorema de Bayes, usando algoritmos de aprendizaje de máquina. El sistema se entrenó con las dos listas ya mencionadas, creando n-gramas (secuencias en las que pueden descomponerse los apellidos, con una longitud n de letras) a partir del conjunto con origen conocido. En la validación, se utilizó n=3 y n=4, obteniendo un índice de precisión de clasificación de 0.80. Estos valores proporcionan el mayor grado de especificidad y permiten agilizar trabajo en grandes volúmenes de datos.
publishDate 2019
dc.date.none.fl_str_mv 2019
dc.type.none.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/conferenceObject
Jornada
Book
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
status_str publishedVersion
format conferenceObject
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/135416
Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias; XIV Jornadas Nacionales de Antropología Biológica; San Salvador de Jujuy; Argentina; 2019; 164-164
978-987-27445-3-3
CONICET Digital
CONICET
url http://hdl.handle.net/11336/135416
identifier_str_mv Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias; XIV Jornadas Nacionales de Antropología Biológica; San Salvador de Jujuy; Argentina; 2019; 164-164
978-987-27445-3-3
CONICET Digital
CONICET
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://3b87ab56-9ab6-4587-8556-542f7dc659db.filesusr.com/ugd/4ab91e_97439a7e868e47f6b090d270df48fd3c.pdf
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
application/pdf
application/pdf
application/pdf
dc.coverage.none.fl_str_mv Nacional
dc.publisher.none.fl_str_mv Asociación de Antropología Biológica Argentina
publisher.none.fl_str_mv Asociación de Antropología Biológica Argentina
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1844613254458900480
score 13.070432