Estimadores robustos para el modelo de regresión lineal con datos de alta dimensión

Autores
Smucler, Ezequiel
Año de publicación
2016
Idioma
inglés
Tipo de recurso
tesis doctoral
Estado
versión publicada
Colaborador/a o director/a de tesis
Yohai, Víctor J.
Descripción
Los estimadores de regresión penalizados son una herramienta popular para analizar conjuntosde datos ralos y de alta dimensión. Sin embargo, los estimadores de regresión penalizadosdefinidos utilizando funciones de pérdida no acotadas, como la pérdida cuadrática, puedenverse muy afectados por la presencia de observaciones atípicas en la muestra, especialmenteaquellas de alto leverage, y por lo tanto no son robustos. Esta tesis consiste de dos partes. En la primera, proponemos una familia de estimadorespenalizados para la estimación robusta en modelos lineales ralos y de alta dimensión basadosen los MM-estimadores de Yohai (1987). Estudiamos las propiedades asintóticas de estosestimadores en modelos lineales con una cantidad fija de variables predictoras aleatorias. Proponemos un algoritmo para computar una subfamilia de los estimadores propuestos. Lasventajas relativas que ofrecen los estimadores propuestos son demostradas mediante un extensoestudio de simulación y el análisis de un conjunto de datos reales. Esta primer parte estábasada en Smucler and Yohai (2015 b). En la segunda parte, estudiamos las propiedades asintóticas de los estimadores propuestosen modelos lineales con un número de variables predictoras fijas que diverge, dentro delrégimen p << n. Probamos la consistencia de los estimadores asumiendo solo p/n → 0, yque si la función de penalización es elegida convenientemente entonces los estimadores resultantestienen la propiedad oráculo definida en Fan and Li (2001). La misma técnica dedemostración nos permite probar la consistencia y derivar la distribución asintótica de M-estimadoresde regresión definidos utilizando una función de perdida acotada y un estimadorde escala, en modelos lineales con un número de variables predictoras fijas que diverge. Enparticular, probamos la consistencia y derivamos la distribución asintótica de los S-estimadores (Rousseeuw and Yohai (1984)) y MM-estimadores de regresión.
Penalized regression estimators are a popular tool for the analysis of sparse and high-dimensionaldata sets. However, penalized regression estimators defined using unbounded loss functions,such as the quadratic loss, can be very sensitive to the presence of outlying observations,especially high leverage outliers, and hence are not robust. This thesis consists of two parts. In the first one, we propose a family of penalized estimatorsfor robust estimation in sparse and high-dimensional linear models based on the MM-estimators of Yohai (1987). We study the asymptotic properties of these estimators inlinear models with a fixed number of random predictor variables. We propose an algorithm tocompute a subset of this family. The relative advantages of these estimators are demonstratedthrough an extensive simulation study and the analysis of a real high-dimensional data set. This first part is based on Smucler and Yohai (2015 b). In the second part, we study the asymptotic properties of the proposed estimators in linearmodels with a diverging number of fixed predictor variables in the p << n regime. We provethe consistency of the estimators assuming only p/n → 0 and that if the penalty functionis chosen appropriately then the resulting estimators have the oracle property of Fan and Li (2001). The same proof technique allows us to prove the consistency and derive the asymptoticdistribution of regression M-estimators defined using a bounded loss function and an estimateof scale, in linear models with a diverging number of fixed predictor variables. In particular,we prove the consistency and derive the asymptotic distribution of S-estimators (Rousseeuwand Yohai (1984)) and MM-estimators.
Fil: Smucler, Ezequiel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
REGRESION ROBUSTA
M-ESTIMADORES
S-ESTIMADORES
MM-ESTIMADORES
ESTIMADOS DE REGRESION PENALIZADOS
LASSO
MODELOS RALOS
PROPIEDAD ORACULO
MODELOS ESTADISTICOS CON UN NUMERO DE PARAMETROS QUE DIVERGE
ROBUST REGRESSION
M-ESTIMATORS
S-ESTIMATORS
MM-ESTIMATORS
PENALIZED REGRESSION ESTIMATORS
LASSO
SPARSITY
ORACLE PROPERTY
DIMENSION ASYMPTOTICS
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
tesis:tesis_n6087_Smucler

id BDUBAFCEN_ae714f99a9ba386ee62d678a96bc6a6d
oai_identifier_str tesis:tesis_n6087_Smucler
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Estimadores robustos para el modelo de regresión lineal con datos de alta dimensiónRobust estimators for high-dimensional linear regression modelsSmucler, EzequielREGRESION ROBUSTAM-ESTIMADORESS-ESTIMADORESMM-ESTIMADORESESTIMADOS DE REGRESION PENALIZADOSLASSOMODELOS RALOSPROPIEDAD ORACULOMODELOS ESTADISTICOS CON UN NUMERO DE PARAMETROS QUE DIVERGEROBUST REGRESSIONM-ESTIMATORSS-ESTIMATORSMM-ESTIMATORSPENALIZED REGRESSION ESTIMATORSLASSOSPARSITYORACLE PROPERTYDIMENSION ASYMPTOTICSLos estimadores de regresión penalizados son una herramienta popular para analizar conjuntosde datos ralos y de alta dimensión. Sin embargo, los estimadores de regresión penalizadosdefinidos utilizando funciones de pérdida no acotadas, como la pérdida cuadrática, puedenverse muy afectados por la presencia de observaciones atípicas en la muestra, especialmenteaquellas de alto leverage, y por lo tanto no son robustos. Esta tesis consiste de dos partes. En la primera, proponemos una familia de estimadorespenalizados para la estimación robusta en modelos lineales ralos y de alta dimensión basadosen los MM-estimadores de Yohai (1987). Estudiamos las propiedades asintóticas de estosestimadores en modelos lineales con una cantidad fija de variables predictoras aleatorias. Proponemos un algoritmo para computar una subfamilia de los estimadores propuestos. Lasventajas relativas que ofrecen los estimadores propuestos son demostradas mediante un extensoestudio de simulación y el análisis de un conjunto de datos reales. Esta primer parte estábasada en Smucler and Yohai (2015 b). En la segunda parte, estudiamos las propiedades asintóticas de los estimadores propuestosen modelos lineales con un número de variables predictoras fijas que diverge, dentro delrégimen p << n. Probamos la consistencia de los estimadores asumiendo solo p/n → 0, yque si la función de penalización es elegida convenientemente entonces los estimadores resultantestienen la propiedad oráculo definida en Fan and Li (2001). La misma técnica dedemostración nos permite probar la consistencia y derivar la distribución asintótica de M-estimadoresde regresión definidos utilizando una función de perdida acotada y un estimadorde escala, en modelos lineales con un número de variables predictoras fijas que diverge. Enparticular, probamos la consistencia y derivamos la distribución asintótica de los S-estimadores (Rousseeuw and Yohai (1984)) y MM-estimadores de regresión.Penalized regression estimators are a popular tool for the analysis of sparse and high-dimensionaldata sets. However, penalized regression estimators defined using unbounded loss functions,such as the quadratic loss, can be very sensitive to the presence of outlying observations,especially high leverage outliers, and hence are not robust. This thesis consists of two parts. In the first one, we propose a family of penalized estimatorsfor robust estimation in sparse and high-dimensional linear models based on the MM-estimators of Yohai (1987). We study the asymptotic properties of these estimators inlinear models with a fixed number of random predictor variables. We propose an algorithm tocompute a subset of this family. The relative advantages of these estimators are demonstratedthrough an extensive simulation study and the analysis of a real high-dimensional data set. This first part is based on Smucler and Yohai (2015 b). In the second part, we study the asymptotic properties of the proposed estimators in linearmodels with a diverging number of fixed predictor variables in the p << n regime. We provethe consistency of the estimators assuming only p/n → 0 and that if the penalty functionis chosen appropriately then the resulting estimators have the oracle property of Fan and Li (2001). The same proof technique allows us to prove the consistency and derive the asymptoticdistribution of regression M-estimators defined using a bounded loss function and an estimateof scale, in linear models with a diverging number of fixed predictor variables. In particular,we prove the consistency and derive the asymptotic distribution of S-estimators (Rousseeuwand Yohai (1984)) and MM-estimators.Fil: Smucler, Ezequiel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesYohai, Víctor J.2016-09-13info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n6087_Smuclerenginfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-04T09:45:58Ztesis:tesis_n6087_SmuclerInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-04 09:45:59.807Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Estimadores robustos para el modelo de regresión lineal con datos de alta dimensión
Robust estimators for high-dimensional linear regression models
title Estimadores robustos para el modelo de regresión lineal con datos de alta dimensión
spellingShingle Estimadores robustos para el modelo de regresión lineal con datos de alta dimensión
Smucler, Ezequiel
REGRESION ROBUSTA
M-ESTIMADORES
S-ESTIMADORES
MM-ESTIMADORES
ESTIMADOS DE REGRESION PENALIZADOS
LASSO
MODELOS RALOS
PROPIEDAD ORACULO
MODELOS ESTADISTICOS CON UN NUMERO DE PARAMETROS QUE DIVERGE
ROBUST REGRESSION
M-ESTIMATORS
S-ESTIMATORS
MM-ESTIMATORS
PENALIZED REGRESSION ESTIMATORS
LASSO
SPARSITY
ORACLE PROPERTY
DIMENSION ASYMPTOTICS
title_short Estimadores robustos para el modelo de regresión lineal con datos de alta dimensión
title_full Estimadores robustos para el modelo de regresión lineal con datos de alta dimensión
title_fullStr Estimadores robustos para el modelo de regresión lineal con datos de alta dimensión
title_full_unstemmed Estimadores robustos para el modelo de regresión lineal con datos de alta dimensión
title_sort Estimadores robustos para el modelo de regresión lineal con datos de alta dimensión
dc.creator.none.fl_str_mv Smucler, Ezequiel
author Smucler, Ezequiel
author_facet Smucler, Ezequiel
author_role author
dc.contributor.none.fl_str_mv Yohai, Víctor J.
dc.subject.none.fl_str_mv REGRESION ROBUSTA
M-ESTIMADORES
S-ESTIMADORES
MM-ESTIMADORES
ESTIMADOS DE REGRESION PENALIZADOS
LASSO
MODELOS RALOS
PROPIEDAD ORACULO
MODELOS ESTADISTICOS CON UN NUMERO DE PARAMETROS QUE DIVERGE
ROBUST REGRESSION
M-ESTIMATORS
S-ESTIMATORS
MM-ESTIMATORS
PENALIZED REGRESSION ESTIMATORS
LASSO
SPARSITY
ORACLE PROPERTY
DIMENSION ASYMPTOTICS
topic REGRESION ROBUSTA
M-ESTIMADORES
S-ESTIMADORES
MM-ESTIMADORES
ESTIMADOS DE REGRESION PENALIZADOS
LASSO
MODELOS RALOS
PROPIEDAD ORACULO
MODELOS ESTADISTICOS CON UN NUMERO DE PARAMETROS QUE DIVERGE
ROBUST REGRESSION
M-ESTIMATORS
S-ESTIMATORS
MM-ESTIMATORS
PENALIZED REGRESSION ESTIMATORS
LASSO
SPARSITY
ORACLE PROPERTY
DIMENSION ASYMPTOTICS
dc.description.none.fl_txt_mv Los estimadores de regresión penalizados son una herramienta popular para analizar conjuntosde datos ralos y de alta dimensión. Sin embargo, los estimadores de regresión penalizadosdefinidos utilizando funciones de pérdida no acotadas, como la pérdida cuadrática, puedenverse muy afectados por la presencia de observaciones atípicas en la muestra, especialmenteaquellas de alto leverage, y por lo tanto no son robustos. Esta tesis consiste de dos partes. En la primera, proponemos una familia de estimadorespenalizados para la estimación robusta en modelos lineales ralos y de alta dimensión basadosen los MM-estimadores de Yohai (1987). Estudiamos las propiedades asintóticas de estosestimadores en modelos lineales con una cantidad fija de variables predictoras aleatorias. Proponemos un algoritmo para computar una subfamilia de los estimadores propuestos. Lasventajas relativas que ofrecen los estimadores propuestos son demostradas mediante un extensoestudio de simulación y el análisis de un conjunto de datos reales. Esta primer parte estábasada en Smucler and Yohai (2015 b). En la segunda parte, estudiamos las propiedades asintóticas de los estimadores propuestosen modelos lineales con un número de variables predictoras fijas que diverge, dentro delrégimen p << n. Probamos la consistencia de los estimadores asumiendo solo p/n → 0, yque si la función de penalización es elegida convenientemente entonces los estimadores resultantestienen la propiedad oráculo definida en Fan and Li (2001). La misma técnica dedemostración nos permite probar la consistencia y derivar la distribución asintótica de M-estimadoresde regresión definidos utilizando una función de perdida acotada y un estimadorde escala, en modelos lineales con un número de variables predictoras fijas que diverge. Enparticular, probamos la consistencia y derivamos la distribución asintótica de los S-estimadores (Rousseeuw and Yohai (1984)) y MM-estimadores de regresión.
Penalized regression estimators are a popular tool for the analysis of sparse and high-dimensionaldata sets. However, penalized regression estimators defined using unbounded loss functions,such as the quadratic loss, can be very sensitive to the presence of outlying observations,especially high leverage outliers, and hence are not robust. This thesis consists of two parts. In the first one, we propose a family of penalized estimatorsfor robust estimation in sparse and high-dimensional linear models based on the MM-estimators of Yohai (1987). We study the asymptotic properties of these estimators inlinear models with a fixed number of random predictor variables. We propose an algorithm tocompute a subset of this family. The relative advantages of these estimators are demonstratedthrough an extensive simulation study and the analysis of a real high-dimensional data set. This first part is based on Smucler and Yohai (2015 b). In the second part, we study the asymptotic properties of the proposed estimators in linearmodels with a diverging number of fixed predictor variables in the p << n regime. We provethe consistency of the estimators assuming only p/n → 0 and that if the penalty functionis chosen appropriately then the resulting estimators have the oracle property of Fan and Li (2001). The same proof technique allows us to prove the consistency and derive the asymptoticdistribution of regression M-estimators defined using a bounded loss function and an estimateof scale, in linear models with a diverging number of fixed predictor variables. In particular,we prove the consistency and derive the asymptotic distribution of S-estimators (Rousseeuwand Yohai (1984)) and MM-estimators.
Fil: Smucler, Ezequiel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Los estimadores de regresión penalizados son una herramienta popular para analizar conjuntosde datos ralos y de alta dimensión. Sin embargo, los estimadores de regresión penalizadosdefinidos utilizando funciones de pérdida no acotadas, como la pérdida cuadrática, puedenverse muy afectados por la presencia de observaciones atípicas en la muestra, especialmenteaquellas de alto leverage, y por lo tanto no son robustos. Esta tesis consiste de dos partes. En la primera, proponemos una familia de estimadorespenalizados para la estimación robusta en modelos lineales ralos y de alta dimensión basadosen los MM-estimadores de Yohai (1987). Estudiamos las propiedades asintóticas de estosestimadores en modelos lineales con una cantidad fija de variables predictoras aleatorias. Proponemos un algoritmo para computar una subfamilia de los estimadores propuestos. Lasventajas relativas que ofrecen los estimadores propuestos son demostradas mediante un extensoestudio de simulación y el análisis de un conjunto de datos reales. Esta primer parte estábasada en Smucler and Yohai (2015 b). En la segunda parte, estudiamos las propiedades asintóticas de los estimadores propuestosen modelos lineales con un número de variables predictoras fijas que diverge, dentro delrégimen p << n. Probamos la consistencia de los estimadores asumiendo solo p/n → 0, yque si la función de penalización es elegida convenientemente entonces los estimadores resultantestienen la propiedad oráculo definida en Fan and Li (2001). La misma técnica dedemostración nos permite probar la consistencia y derivar la distribución asintótica de M-estimadoresde regresión definidos utilizando una función de perdida acotada y un estimadorde escala, en modelos lineales con un número de variables predictoras fijas que diverge. Enparticular, probamos la consistencia y derivamos la distribución asintótica de los S-estimadores (Rousseeuw and Yohai (1984)) y MM-estimadores de regresión.
publishDate 2016
dc.date.none.fl_str_mv 2016-09-13
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/tesis_n6087_Smucler
url https://hdl.handle.net/20.500.12110/tesis_n6087_Smucler
dc.language.none.fl_str_mv eng
language eng
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1842340667235237888
score 12.623145