Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias
- Autores
- Morales, Arturo Leonardo; Dipierri, J. E.; Albeck, Maria Ester; Alfaro, E. L.; Chaves, Estela Raquel; Delrieux, Claudio Augusto; Ramallo, Virginia
- Año de publicación
- 2019
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- Los apellidos reconocen un origen geográfico-lingüístico y pueden utilizarse como discriminantes de procedencia. Al estar distribuidos por toda la población, permiten una visión demográfica global. Nuestro objetivo fue clasificar según origen más probable e identificar patrones de agrupamiento espacial de los apellidos de votantes. Se analizaron 30.530.194 personas (Padrón Electoral, 2015), portadoras de 975.112 nombres de familia diferentes. Como referencia se emplearon dos listas previas (Monasterio, 2017; Albeck et al, 2017), con 65.023 apellidos ya clasificados. Los datos se procesaron en forma automática, identificando coincidencias y asignando orígenes. Así, 24.533.521 personas con apellidos clasificados se georreferenciaron a partir de sus lugares de votación. Para los gráficos de distribución se emplearon el algoritmo Fisher-Jenks o método de rupturas naturales (para generar intervalos que mejor agrupen valores similares y maximicen diferencias entre clases) y el de intervalos manuales (para generar mapas a magnitudes comparables). Para optimizar el tiempo de clasificación de los apellidos que quedaron sin asignación de origen, desarrollamos una herramienta analítica probabilística basada en el teorema de Bayes, usando algoritmos de aprendizaje de máquina. El sistema se entrenó con las dos listas ya mencionadas, creando n-gramas (secuencias en las que pueden descomponerse los apellidos, con una longitud n de letras) a partir del conjunto con origen conocido. En la validación, se utilizó n=3 y n=4, obteniendo un índice de precisión de clasificación de 0.80. Estos valores proporcionan el mayor grado de especificidad y permiten agilizar trabajo en grandes volúmenes de datos.
Fil: Morales, Arturo Leonardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico de Ciencias Sociales y Humanas; Argentina. Universidad Nacional de la Patagonia "San Juan Bosco". Facultad de Ingeniería - Sede Trelew.; Argentina
Fil: Dipierri, J. E.. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; Argentina
Fil: Albeck, Maria Ester. Universidad Nacional de Jujuy. Instituto de Ecorregiones Andinas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Ecorregiones Andinas; Argentina
Fil: Alfaro, E. L.. Universidad Nacional de Jujuy. Instituto de Ecorregiones Andinas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Ecorregiones Andinas; Argentina. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; Argentina
Fil: Chaves, Estela Raquel. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; Argentina
Fil: Delrieux, Claudio Augusto. Universidad Nacional del Sur; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina
Fil: Ramallo, Virginia. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico de Ciencias Sociales y Humanas; Argentina
XIV Jornadas Nacionales de Antropología Biológica
San Salvador de Jujuy
Argentina
Asociación de Antropología Biológica Argentina - Materia
-
APELLIDOS
APRENDIZAJE DE MAQUINA
CLASIFICACIÓN AUTOMÁTICA - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
- Repositorio
- Institución
- Consejo Nacional de Investigaciones Científicas y Técnicas
- OAI Identificador
- oai:ri.conicet.gov.ar:11336/135416
Ver los metadatos del registro completo
id |
CONICETDig_7b564869f54acf8b6223000360f5ce75 |
---|---|
oai_identifier_str |
oai:ri.conicet.gov.ar:11336/135416 |
network_acronym_str |
CONICETDig |
repository_id_str |
3498 |
network_name_str |
CONICET Digital (CONICET) |
spelling |
Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuenciasMorales, Arturo LeonardoDipierri, J. E.Albeck, Maria EsterAlfaro, E. L.Chaves, Estela RaquelDelrieux, Claudio AugustoRamallo, VirginiaAPELLIDOSAPRENDIZAJE DE MAQUINACLASIFICACIÓN AUTOMÁTICAhttps://purl.org/becyt/ford/5.9https://purl.org/becyt/ford/5Los apellidos reconocen un origen geográfico-lingüístico y pueden utilizarse como discriminantes de procedencia. Al estar distribuidos por toda la población, permiten una visión demográfica global. Nuestro objetivo fue clasificar según origen más probable e identificar patrones de agrupamiento espacial de los apellidos de votantes. Se analizaron 30.530.194 personas (Padrón Electoral, 2015), portadoras de 975.112 nombres de familia diferentes. Como referencia se emplearon dos listas previas (Monasterio, 2017; Albeck et al, 2017), con 65.023 apellidos ya clasificados. Los datos se procesaron en forma automática, identificando coincidencias y asignando orígenes. Así, 24.533.521 personas con apellidos clasificados se georreferenciaron a partir de sus lugares de votación. Para los gráficos de distribución se emplearon el algoritmo Fisher-Jenks o método de rupturas naturales (para generar intervalos que mejor agrupen valores similares y maximicen diferencias entre clases) y el de intervalos manuales (para generar mapas a magnitudes comparables). Para optimizar el tiempo de clasificación de los apellidos que quedaron sin asignación de origen, desarrollamos una herramienta analítica probabilística basada en el teorema de Bayes, usando algoritmos de aprendizaje de máquina. El sistema se entrenó con las dos listas ya mencionadas, creando n-gramas (secuencias en las que pueden descomponerse los apellidos, con una longitud n de letras) a partir del conjunto con origen conocido. En la validación, se utilizó n=3 y n=4, obteniendo un índice de precisión de clasificación de 0.80. Estos valores proporcionan el mayor grado de especificidad y permiten agilizar trabajo en grandes volúmenes de datos.Fil: Morales, Arturo Leonardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico de Ciencias Sociales y Humanas; Argentina. Universidad Nacional de la Patagonia "San Juan Bosco". Facultad de Ingeniería - Sede Trelew.; ArgentinaFil: Dipierri, J. E.. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; ArgentinaFil: Albeck, Maria Ester. Universidad Nacional de Jujuy. Instituto de Ecorregiones Andinas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Ecorregiones Andinas; ArgentinaFil: Alfaro, E. L.. Universidad Nacional de Jujuy. Instituto de Ecorregiones Andinas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Ecorregiones Andinas; Argentina. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; ArgentinaFil: Chaves, Estela Raquel. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; ArgentinaFil: Delrieux, Claudio Augusto. Universidad Nacional del Sur; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; ArgentinaFil: Ramallo, Virginia. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico de Ciencias Sociales y Humanas; ArgentinaXIV Jornadas Nacionales de Antropología BiológicaSan Salvador de JujuyArgentinaAsociación de Antropología Biológica ArgentinaAsociación de Antropología Biológica ArgentinaAlfaro Gómez, Emma LauraRevollo, Gabriela BeatrizChaves, Estela Raquel2019info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/conferenceObjectJornadaBookhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfapplication/pdfapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/135416Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias; XIV Jornadas Nacionales de Antropología Biológica; San Salvador de Jujuy; Argentina; 2019; 164-164978-987-27445-3-3CONICET DigitalCONICETspainfo:eu-repo/semantics/altIdentifier/url/https://3b87ab56-9ab6-4587-8556-542f7dc659db.filesusr.com/ugd/4ab91e_97439a7e868e47f6b090d270df48fd3c.pdfNacionalinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T09:39:37Zoai:ri.conicet.gov.ar:11336/135416instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 09:39:38.143CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse |
dc.title.none.fl_str_mv |
Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias |
title |
Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias |
spellingShingle |
Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias Morales, Arturo Leonardo APELLIDOS APRENDIZAJE DE MAQUINA CLASIFICACIÓN AUTOMÁTICA |
title_short |
Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias |
title_full |
Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias |
title_fullStr |
Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias |
title_full_unstemmed |
Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias |
title_sort |
Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias |
dc.creator.none.fl_str_mv |
Morales, Arturo Leonardo Dipierri, J. E. Albeck, Maria Ester Alfaro, E. L. Chaves, Estela Raquel Delrieux, Claudio Augusto Ramallo, Virginia |
author |
Morales, Arturo Leonardo |
author_facet |
Morales, Arturo Leonardo Dipierri, J. E. Albeck, Maria Ester Alfaro, E. L. Chaves, Estela Raquel Delrieux, Claudio Augusto Ramallo, Virginia |
author_role |
author |
author2 |
Dipierri, J. E. Albeck, Maria Ester Alfaro, E. L. Chaves, Estela Raquel Delrieux, Claudio Augusto Ramallo, Virginia |
author2_role |
author author author author author author |
dc.contributor.none.fl_str_mv |
Alfaro Gómez, Emma Laura Revollo, Gabriela Beatriz Chaves, Estela Raquel |
dc.subject.none.fl_str_mv |
APELLIDOS APRENDIZAJE DE MAQUINA CLASIFICACIÓN AUTOMÁTICA |
topic |
APELLIDOS APRENDIZAJE DE MAQUINA CLASIFICACIÓN AUTOMÁTICA |
purl_subject.fl_str_mv |
https://purl.org/becyt/ford/5.9 https://purl.org/becyt/ford/5 |
dc.description.none.fl_txt_mv |
Los apellidos reconocen un origen geográfico-lingüístico y pueden utilizarse como discriminantes de procedencia. Al estar distribuidos por toda la población, permiten una visión demográfica global. Nuestro objetivo fue clasificar según origen más probable e identificar patrones de agrupamiento espacial de los apellidos de votantes. Se analizaron 30.530.194 personas (Padrón Electoral, 2015), portadoras de 975.112 nombres de familia diferentes. Como referencia se emplearon dos listas previas (Monasterio, 2017; Albeck et al, 2017), con 65.023 apellidos ya clasificados. Los datos se procesaron en forma automática, identificando coincidencias y asignando orígenes. Así, 24.533.521 personas con apellidos clasificados se georreferenciaron a partir de sus lugares de votación. Para los gráficos de distribución se emplearon el algoritmo Fisher-Jenks o método de rupturas naturales (para generar intervalos que mejor agrupen valores similares y maximicen diferencias entre clases) y el de intervalos manuales (para generar mapas a magnitudes comparables). Para optimizar el tiempo de clasificación de los apellidos que quedaron sin asignación de origen, desarrollamos una herramienta analítica probabilística basada en el teorema de Bayes, usando algoritmos de aprendizaje de máquina. El sistema se entrenó con las dos listas ya mencionadas, creando n-gramas (secuencias en las que pueden descomponerse los apellidos, con una longitud n de letras) a partir del conjunto con origen conocido. En la validación, se utilizó n=3 y n=4, obteniendo un índice de precisión de clasificación de 0.80. Estos valores proporcionan el mayor grado de especificidad y permiten agilizar trabajo en grandes volúmenes de datos. Fil: Morales, Arturo Leonardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico de Ciencias Sociales y Humanas; Argentina. Universidad Nacional de la Patagonia "San Juan Bosco". Facultad de Ingeniería - Sede Trelew.; Argentina Fil: Dipierri, J. E.. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; Argentina Fil: Albeck, Maria Ester. Universidad Nacional de Jujuy. Instituto de Ecorregiones Andinas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Ecorregiones Andinas; Argentina Fil: Alfaro, E. L.. Universidad Nacional de Jujuy. Instituto de Ecorregiones Andinas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Ecorregiones Andinas; Argentina. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; Argentina Fil: Chaves, Estela Raquel. Universidad Nacional de Jujuy. Instituto de Biología de la Altura; Argentina Fil: Delrieux, Claudio Augusto. Universidad Nacional del Sur; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina Fil: Ramallo, Virginia. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico de Ciencias Sociales y Humanas; Argentina XIV Jornadas Nacionales de Antropología Biológica San Salvador de Jujuy Argentina Asociación de Antropología Biológica Argentina |
description |
Los apellidos reconocen un origen geográfico-lingüístico y pueden utilizarse como discriminantes de procedencia. Al estar distribuidos por toda la población, permiten una visión demográfica global. Nuestro objetivo fue clasificar según origen más probable e identificar patrones de agrupamiento espacial de los apellidos de votantes. Se analizaron 30.530.194 personas (Padrón Electoral, 2015), portadoras de 975.112 nombres de familia diferentes. Como referencia se emplearon dos listas previas (Monasterio, 2017; Albeck et al, 2017), con 65.023 apellidos ya clasificados. Los datos se procesaron en forma automática, identificando coincidencias y asignando orígenes. Así, 24.533.521 personas con apellidos clasificados se georreferenciaron a partir de sus lugares de votación. Para los gráficos de distribución se emplearon el algoritmo Fisher-Jenks o método de rupturas naturales (para generar intervalos que mejor agrupen valores similares y maximicen diferencias entre clases) y el de intervalos manuales (para generar mapas a magnitudes comparables). Para optimizar el tiempo de clasificación de los apellidos que quedaron sin asignación de origen, desarrollamos una herramienta analítica probabilística basada en el teorema de Bayes, usando algoritmos de aprendizaje de máquina. El sistema se entrenó con las dos listas ya mencionadas, creando n-gramas (secuencias en las que pueden descomponerse los apellidos, con una longitud n de letras) a partir del conjunto con origen conocido. En la validación, se utilizó n=3 y n=4, obteniendo un índice de precisión de clasificación de 0.80. Estos valores proporcionan el mayor grado de especificidad y permiten agilizar trabajo en grandes volúmenes de datos. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/conferenceObject Jornada Book http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
status_str |
publishedVersion |
format |
conferenceObject |
dc.identifier.none.fl_str_mv |
http://hdl.handle.net/11336/135416 Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias; XIV Jornadas Nacionales de Antropología Biológica; San Salvador de Jujuy; Argentina; 2019; 164-164 978-987-27445-3-3 CONICET Digital CONICET |
url |
http://hdl.handle.net/11336/135416 |
identifier_str_mv |
Apellidos en el Padrón Electoral argentino: Clasificación, distribución y análisis espacial de frecuencias; XIV Jornadas Nacionales de Antropología Biológica; San Salvador de Jujuy; Argentina; 2019; 164-164 978-987-27445-3-3 CONICET Digital CONICET |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://3b87ab56-9ab6-4587-8556-542f7dc659db.filesusr.com/ugd/4ab91e_97439a7e868e47f6b090d270df48fd3c.pdf |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/ |
dc.format.none.fl_str_mv |
application/pdf application/pdf application/pdf application/pdf application/pdf |
dc.coverage.none.fl_str_mv |
Nacional |
dc.publisher.none.fl_str_mv |
Asociación de Antropología Biológica Argentina |
publisher.none.fl_str_mv |
Asociación de Antropología Biológica Argentina |
dc.source.none.fl_str_mv |
reponame:CONICET Digital (CONICET) instname:Consejo Nacional de Investigaciones Científicas y Técnicas |
reponame_str |
CONICET Digital (CONICET) |
collection |
CONICET Digital (CONICET) |
instname_str |
Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.name.fl_str_mv |
CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.mail.fl_str_mv |
dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar |
_version_ |
1844613254458900480 |
score |
13.070432 |