Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de Hogares

Autores
Rosati, Germán Federico
Año de publicación
2021
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión publicada
Descripción
La presente ponencia expone algunos avances en la construcción de un modelo de imputación de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentan los resultados de algunos experimentos de imputación de los ingresos correspondientes a la ocupación principal de la Encuesta Permanente de Hogares, basados en técnicas de Ensamble Learning y Deep Learning: Random Forest, XGBoost y Multi-Layer Perceptron. Se compara la performance de estas técnicas con el método Hot Deck (uno de los métodos usados por el Sistema Estadístico Nacional).En la primera y segunda parte del documento plantea el problema de forma más específica y se pasa revista a los principales mecanismos de generación de los valores perdidos y sus consecuencias al momento de la imputación de valores perdidos. En la tercera parte, se presentan las técnicas propuestas y sus fundamentos teóricos-metodológicos. Finalmente, en la cuarta sección, se presentan los principales resultados de la aplicación de los métodos propuestos sobre datos de la Encuesta Permanente de Hogares.
This paper presents some advances in the construction of a model for the imputation of missing values and no response for the income variables in household surveys. The results of some imputation experiments of the labor income variable of the Permanent Household Survey are presented, based on Assembly Learning and Deep Learning techniques: Random Forest, XGBoost and Multi-Layer Perceptron. The performance of these techniques is compared with the Hot Deck method (one of the methods used by the National Statistical System). In the first and second part of the document, it raises the problem more specifically and reviews the main mechanisms for generating lost values and their consequences at the time of imputation of lost values. In the third part, the proposed techniques and their theoretical-methodological foundations are presented. Finally, in the fourth section, the main results of the application of the proposed methods on data from the Permanent Household Survey are presented.
Fil: Rosati, Germán Federico. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina. Universidad Nacional de San Martín. Instituto de Altos Estudios Sociales; Argentina. Universidad Nacional de Tres de Febrero. Departamento de Metodología, Estadística y Matemáticas; Argentina
Materia
MACHINE LEARNING
DATOS PERDIDOS
IMPUTACION
INGRESOS
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/165980

id CONICETDig_ed1362f68794bd030c6a6b0827f079c8
oai_identifier_str oai:ri.conicet.gov.ar:11336/165980
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de HogaresMachine Learning as alternative methods for missing data imputation: An exercise using Permanent Household SurveyRosati, Germán FedericoMACHINE LEARNINGDATOS PERDIDOSIMPUTACIONINGRESOShttps://purl.org/becyt/ford/5.4https://purl.org/becyt/ford/5La presente ponencia expone algunos avances en la construcción de un modelo de imputación de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentan los resultados de algunos experimentos de imputación de los ingresos correspondientes a la ocupación principal de la Encuesta Permanente de Hogares, basados en técnicas de Ensamble Learning y Deep Learning: Random Forest, XGBoost y Multi-Layer Perceptron. Se compara la performance de estas técnicas con el método Hot Deck (uno de los métodos usados por el Sistema Estadístico Nacional).En la primera y segunda parte del documento plantea el problema de forma más específica y se pasa revista a los principales mecanismos de generación de los valores perdidos y sus consecuencias al momento de la imputación de valores perdidos. En la tercera parte, se presentan las técnicas propuestas y sus fundamentos teóricos-metodológicos. Finalmente, en la cuarta sección, se presentan los principales resultados de la aplicación de los métodos propuestos sobre datos de la Encuesta Permanente de Hogares.This paper presents some advances in the construction of a model for the imputation of missing values and no response for the income variables in household surveys. The results of some imputation experiments of the labor income variable of the Permanent Household Survey are presented, based on Assembly Learning and Deep Learning techniques: Random Forest, XGBoost and Multi-Layer Perceptron. The performance of these techniques is compared with the Hot Deck method (one of the methods used by the National Statistical System). In the first and second part of the document, it raises the problem more specifically and reviews the main mechanisms for generating lost values and their consequences at the time of imputation of lost values. In the third part, the proposed techniques and their theoretical-methodological foundations are presented. Finally, in the fourth section, the main results of the application of the proposed methods on data from the Permanent Household Survey are presented.Fil: Rosati, Germán Federico. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina. Universidad Nacional de San Martín. Instituto de Altos Estudios Sociales; Argentina. Universidad Nacional de Tres de Febrero. Departamento de Metodología, Estadística y Matemáticas; ArgentinaAsociación Argentina de Especialistas en Estudios del Trabajo2021-06info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/165980Rosati, Germán Federico; Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de Hogares; Asociación Argentina de Especialistas en Estudios del Trabajo; Estudios del Trabajo; 61; 6-2021; 1-230327-57442545-7756CONICET DigitalCONICETspainfo:eu-repo/semantics/altIdentifier/url/https://ojs.aset.org.ar/revista/article/view/81info:eu-repo/semantics/altIdentifier/url/http://www.scielo.org.ar/scielo.php?script=sci_arttext&pid=S2545-77562021000100122info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T09:52:12Zoai:ri.conicet.gov.ar:11336/165980instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 09:52:12.935CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de Hogares
Machine Learning as alternative methods for missing data imputation: An exercise using Permanent Household Survey
title Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de Hogares
spellingShingle Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de Hogares
Rosati, Germán Federico
MACHINE LEARNING
DATOS PERDIDOS
IMPUTACION
INGRESOS
title_short Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de Hogares
title_full Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de Hogares
title_fullStr Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de Hogares
title_full_unstemmed Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de Hogares
title_sort Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de Hogares
dc.creator.none.fl_str_mv Rosati, Germán Federico
author Rosati, Germán Federico
author_facet Rosati, Germán Federico
author_role author
dc.subject.none.fl_str_mv MACHINE LEARNING
DATOS PERDIDOS
IMPUTACION
INGRESOS
topic MACHINE LEARNING
DATOS PERDIDOS
IMPUTACION
INGRESOS
purl_subject.fl_str_mv https://purl.org/becyt/ford/5.4
https://purl.org/becyt/ford/5
dc.description.none.fl_txt_mv La presente ponencia expone algunos avances en la construcción de un modelo de imputación de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentan los resultados de algunos experimentos de imputación de los ingresos correspondientes a la ocupación principal de la Encuesta Permanente de Hogares, basados en técnicas de Ensamble Learning y Deep Learning: Random Forest, XGBoost y Multi-Layer Perceptron. Se compara la performance de estas técnicas con el método Hot Deck (uno de los métodos usados por el Sistema Estadístico Nacional).En la primera y segunda parte del documento plantea el problema de forma más específica y se pasa revista a los principales mecanismos de generación de los valores perdidos y sus consecuencias al momento de la imputación de valores perdidos. En la tercera parte, se presentan las técnicas propuestas y sus fundamentos teóricos-metodológicos. Finalmente, en la cuarta sección, se presentan los principales resultados de la aplicación de los métodos propuestos sobre datos de la Encuesta Permanente de Hogares.
This paper presents some advances in the construction of a model for the imputation of missing values and no response for the income variables in household surveys. The results of some imputation experiments of the labor income variable of the Permanent Household Survey are presented, based on Assembly Learning and Deep Learning techniques: Random Forest, XGBoost and Multi-Layer Perceptron. The performance of these techniques is compared with the Hot Deck method (one of the methods used by the National Statistical System). In the first and second part of the document, it raises the problem more specifically and reviews the main mechanisms for generating lost values and their consequences at the time of imputation of lost values. In the third part, the proposed techniques and their theoretical-methodological foundations are presented. Finally, in the fourth section, the main results of the application of the proposed methods on data from the Permanent Household Survey are presented.
Fil: Rosati, Germán Federico. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina. Universidad Nacional de San Martín. Instituto de Altos Estudios Sociales; Argentina. Universidad Nacional de Tres de Febrero. Departamento de Metodología, Estadística y Matemáticas; Argentina
description La presente ponencia expone algunos avances en la construcción de un modelo de imputación de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentan los resultados de algunos experimentos de imputación de los ingresos correspondientes a la ocupación principal de la Encuesta Permanente de Hogares, basados en técnicas de Ensamble Learning y Deep Learning: Random Forest, XGBoost y Multi-Layer Perceptron. Se compara la performance de estas técnicas con el método Hot Deck (uno de los métodos usados por el Sistema Estadístico Nacional).En la primera y segunda parte del documento plantea el problema de forma más específica y se pasa revista a los principales mecanismos de generación de los valores perdidos y sus consecuencias al momento de la imputación de valores perdidos. En la tercera parte, se presentan las técnicas propuestas y sus fundamentos teóricos-metodológicos. Finalmente, en la cuarta sección, se presentan los principales resultados de la aplicación de los métodos propuestos sobre datos de la Encuesta Permanente de Hogares.
publishDate 2021
dc.date.none.fl_str_mv 2021-06
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/165980
Rosati, Germán Federico; Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de Hogares; Asociación Argentina de Especialistas en Estudios del Trabajo; Estudios del Trabajo; 61; 6-2021; 1-23
0327-5744
2545-7756
CONICET Digital
CONICET
url http://hdl.handle.net/11336/165980
identifier_str_mv Rosati, Germán Federico; Métodos de Machine Learning como alternativa para la imputación de datos perdidos: Un ejercicio en base a la Encuesta Permanente de Hogares; Asociación Argentina de Especialistas en Estudios del Trabajo; Estudios del Trabajo; 61; 6-2021; 1-23
0327-5744
2545-7756
CONICET Digital
CONICET
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://ojs.aset.org.ar/revista/article/view/81
info:eu-repo/semantics/altIdentifier/url/http://www.scielo.org.ar/scielo.php?script=sci_arttext&pid=S2545-77562021000100122
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Asociación Argentina de Especialistas en Estudios del Trabajo
publisher.none.fl_str_mv Asociación Argentina de Especialistas en Estudios del Trabajo
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1844613602011512832
score 13.070432