Estimación robusta para un modelo de reducción de la dimensión

Autores
Szretter Noste, María Eugenia
Año de publicación
2017
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión publicada
Colaborador/a o director/a de tesis
Yohai, Víctor Jaime
Descripción
Las técnicas no paramétricas son herramientas flexibles para poder estudiar la relación entre una variable aleatoria continua y un vector de covariables explicativas, pero para su aplicación requieren un número de observaciones que crece exponencialmente con la dimensión p del vector de covariables. Una manera de poder enfrentar la estimación no-paramétrica con una muestra de tamaño moderado y p grande, es obtener un número reducido de nuevas variables explicativas sin disminuir la información que ellas provean sobre la variable respuesta. Las diversas estrategias para encarar este problema se engloban en lo que se denomina reducción de la dimensión. Cook [2007] introduce el concepto de reducción suficiente, y el modelo de principal fitted components (PFC). Cook y Forzani [2008] calcula el estimador de máxima verosimilitud (MV) para el modelo PFC suponiendo que los errores tienen distribución normal multivariada. Sin embargo, cuando hay contaminación o la distribución de los errores no es normal multivariada, los estimadores de MV se ven muy afectados y por lo tanto en estos casos, pueden ser muy poco informativos. En esta tesis proponemos estimadores robustos de tipo τ para estimar el modelo PFC y por consiguiente para la correspondiente reducción suficiente. Estos estimadores están basados en una τ-escala (ver Yohai y Zamar [1988]). Definimos el τ-funcional de estimación del cual se derivan los τ-estimadores propuestos. Se demuestra que bajo condiciones generales estos estimadores son fuertemente consistentes. A partir de las ecuaciones de estimación se obtiene una expresión para los τ-estimadores similar a la de MV, excepto que las observaciones aparecen acompañadas por pesos que, a su vez, dependen de los parámetros. Esto sugiere un algoritmo iterativo natural para computar los τ . También se discute cómo obtener valores iniciales para este algoritmo. Un estudio de Monte Carlo permite comparar los τ -estimadores y los estimadores de MV bajo el modelo PFC y bajo contaminación por outliers. Los resultados de esta simulación muestran claras ventajas para los τ -estimadores. También se presenta una propuesta de selección de la dimensión del espacio de reducción basada en validación cruzada. Finalmente, ilustramos la aplicación del método con dos ejemplos de datos reales. Las demostraciones de los resultados se presentan en varios apéndices.
Non-parametric estimating procedures are flexible tools to study the relationship between a continuous response and a vector of explanatory variables. However these methods require a number of observations that grows exponentially with the number of explanatory variables. One way to overcome this situation is to obtain a reduced number of new variables that contain the same information on the response than the original ones. Several strategies have been proposed to achieve this dimension reduction. Cook [2007] introduces the concept of suficient reduction and the principal fitted components (PFC) model. Cook and Forzani [2008] obtain the maximum likelihood (ML) for the PFC model assuming that the error distribution is multivariate normal. However these estimators may be much affected for outlier contamination or a non normal error distribution, and therefore, when this occurs, they may not be much informative. In this thesis we propose robust estimators for the parameters of the PFC model based on a τ -scale (see Yohai and Zamar [1988]), and therefore we provide robust estimators for the suficient reduction too. We define the τestimating functional that generate the τestimators for the PFC model. We prove that under general assumptions this τestimators are strongly consistent. We obtain the estimating equations that characterize the critical points of the τ-estimator. Using these equations we can express the τestimators as a weighted ML estimator where the weight for each observation depends on the parameters. This expression suggests a natural iterative algorithm to compute the τestimators. We also discuss how to obtain starting values for the parameters of the algorithm. We perform a simulation study to compare the τ and ML-estimators. The simulation results show that the τestimators compare favorably with respect to the ML-estimator. We also propose a procedure based on cross validation to choose the dimension of the suficient reduction. Finally,we illustrate the advantages of the proposed estimation procedure using two real datasets. The proofs of the main results can be found in several appendices.
Fil: Szretter Noste, María Eugenia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
REDUCCION DE LA DIMENSION
PRINCIPAL FITTED COMPONENTS
ESTIMACION ROBUSTA
T-ESTIMADOR
REDUCCION SUFICIENTE
REGRESION INVERSA
SELECCION DE LA DIMENSION
DIMENSION REDUCTION
PRINCIPAL FITTED COMPONENTS
ROBUST ESTIMATION
T-ESTIMATOR
SUFFICIENT REDUCTION
INVERSE REGRESSION
DIMENSION SELECTION
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
tesis:tesis_n6322_SzretterNoste

id BDUBAFCEN_e4463a4a11fbce9f3ee9fb7329a83139
oai_identifier_str tesis:tesis_n6322_SzretterNoste
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Estimación robusta para un modelo de reducción de la dimensiónRobust estimation for a dimension reduction modelSzretter Noste, María EugeniaREDUCCION DE LA DIMENSIONPRINCIPAL FITTED COMPONENTSESTIMACION ROBUSTAT-ESTIMADORREDUCCION SUFICIENTEREGRESION INVERSASELECCION DE LA DIMENSIONDIMENSION REDUCTIONPRINCIPAL FITTED COMPONENTSROBUST ESTIMATIONT-ESTIMATORSUFFICIENT REDUCTIONINVERSE REGRESSIONDIMENSION SELECTIONLas técnicas no paramétricas son herramientas flexibles para poder estudiar la relación entre una variable aleatoria continua y un vector de covariables explicativas, pero para su aplicación requieren un número de observaciones que crece exponencialmente con la dimensión p del vector de covariables. Una manera de poder enfrentar la estimación no-paramétrica con una muestra de tamaño moderado y p grande, es obtener un número reducido de nuevas variables explicativas sin disminuir la información que ellas provean sobre la variable respuesta. Las diversas estrategias para encarar este problema se engloban en lo que se denomina reducción de la dimensión. Cook [2007] introduce el concepto de reducción suficiente, y el modelo de principal fitted components (PFC). Cook y Forzani [2008] calcula el estimador de máxima verosimilitud (MV) para el modelo PFC suponiendo que los errores tienen distribución normal multivariada. Sin embargo, cuando hay contaminación o la distribución de los errores no es normal multivariada, los estimadores de MV se ven muy afectados y por lo tanto en estos casos, pueden ser muy poco informativos. En esta tesis proponemos estimadores robustos de tipo τ para estimar el modelo PFC y por consiguiente para la correspondiente reducción suficiente. Estos estimadores están basados en una τ-escala (ver Yohai y Zamar [1988]). Definimos el τ-funcional de estimación del cual se derivan los τ-estimadores propuestos. Se demuestra que bajo condiciones generales estos estimadores son fuertemente consistentes. A partir de las ecuaciones de estimación se obtiene una expresión para los τ-estimadores similar a la de MV, excepto que las observaciones aparecen acompañadas por pesos que, a su vez, dependen de los parámetros. Esto sugiere un algoritmo iterativo natural para computar los τ . También se discute cómo obtener valores iniciales para este algoritmo. Un estudio de Monte Carlo permite comparar los τ -estimadores y los estimadores de MV bajo el modelo PFC y bajo contaminación por outliers. Los resultados de esta simulación muestran claras ventajas para los τ -estimadores. También se presenta una propuesta de selección de la dimensión del espacio de reducción basada en validación cruzada. Finalmente, ilustramos la aplicación del método con dos ejemplos de datos reales. Las demostraciones de los resultados se presentan en varios apéndices.Non-parametric estimating procedures are flexible tools to study the relationship between a continuous response and a vector of explanatory variables. However these methods require a number of observations that grows exponentially with the number of explanatory variables. One way to overcome this situation is to obtain a reduced number of new variables that contain the same information on the response than the original ones. Several strategies have been proposed to achieve this dimension reduction. Cook [2007] introduces the concept of suficient reduction and the principal fitted components (PFC) model. Cook and Forzani [2008] obtain the maximum likelihood (ML) for the PFC model assuming that the error distribution is multivariate normal. However these estimators may be much affected for outlier contamination or a non normal error distribution, and therefore, when this occurs, they may not be much informative. In this thesis we propose robust estimators for the parameters of the PFC model based on a τ -scale (see Yohai and Zamar [1988]), and therefore we provide robust estimators for the suficient reduction too. We define the τestimating functional that generate the τestimators for the PFC model. We prove that under general assumptions this τestimators are strongly consistent. We obtain the estimating equations that characterize the critical points of the τ-estimator. Using these equations we can express the τestimators as a weighted ML estimator where the weight for each observation depends on the parameters. This expression suggests a natural iterative algorithm to compute the τestimators. We also discuss how to obtain starting values for the parameters of the algorithm. We perform a simulation study to compare the τ and ML-estimators. The simulation results show that the τestimators compare favorably with respect to the ML-estimator. We also propose a procedure based on cross validation to choose the dimension of the suficient reduction. Finally,we illustrate the advantages of the proposed estimation procedure using two real datasets. The proofs of the main results can be found in several appendices.Fil: Szretter Noste, María Eugenia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesYohai, Víctor Jaime2017-10-06info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n6322_SzretterNostespainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:42:39Ztesis:tesis_n6322_SzretterNosteInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:42:40.805Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Estimación robusta para un modelo de reducción de la dimensión
Robust estimation for a dimension reduction model
title Estimación robusta para un modelo de reducción de la dimensión
spellingShingle Estimación robusta para un modelo de reducción de la dimensión
Szretter Noste, María Eugenia
REDUCCION DE LA DIMENSION
PRINCIPAL FITTED COMPONENTS
ESTIMACION ROBUSTA
T-ESTIMADOR
REDUCCION SUFICIENTE
REGRESION INVERSA
SELECCION DE LA DIMENSION
DIMENSION REDUCTION
PRINCIPAL FITTED COMPONENTS
ROBUST ESTIMATION
T-ESTIMATOR
SUFFICIENT REDUCTION
INVERSE REGRESSION
DIMENSION SELECTION
title_short Estimación robusta para un modelo de reducción de la dimensión
title_full Estimación robusta para un modelo de reducción de la dimensión
title_fullStr Estimación robusta para un modelo de reducción de la dimensión
title_full_unstemmed Estimación robusta para un modelo de reducción de la dimensión
title_sort Estimación robusta para un modelo de reducción de la dimensión
dc.creator.none.fl_str_mv Szretter Noste, María Eugenia
author Szretter Noste, María Eugenia
author_facet Szretter Noste, María Eugenia
author_role author
dc.contributor.none.fl_str_mv Yohai, Víctor Jaime
dc.subject.none.fl_str_mv REDUCCION DE LA DIMENSION
PRINCIPAL FITTED COMPONENTS
ESTIMACION ROBUSTA
T-ESTIMADOR
REDUCCION SUFICIENTE
REGRESION INVERSA
SELECCION DE LA DIMENSION
DIMENSION REDUCTION
PRINCIPAL FITTED COMPONENTS
ROBUST ESTIMATION
T-ESTIMATOR
SUFFICIENT REDUCTION
INVERSE REGRESSION
DIMENSION SELECTION
topic REDUCCION DE LA DIMENSION
PRINCIPAL FITTED COMPONENTS
ESTIMACION ROBUSTA
T-ESTIMADOR
REDUCCION SUFICIENTE
REGRESION INVERSA
SELECCION DE LA DIMENSION
DIMENSION REDUCTION
PRINCIPAL FITTED COMPONENTS
ROBUST ESTIMATION
T-ESTIMATOR
SUFFICIENT REDUCTION
INVERSE REGRESSION
DIMENSION SELECTION
dc.description.none.fl_txt_mv Las técnicas no paramétricas son herramientas flexibles para poder estudiar la relación entre una variable aleatoria continua y un vector de covariables explicativas, pero para su aplicación requieren un número de observaciones que crece exponencialmente con la dimensión p del vector de covariables. Una manera de poder enfrentar la estimación no-paramétrica con una muestra de tamaño moderado y p grande, es obtener un número reducido de nuevas variables explicativas sin disminuir la información que ellas provean sobre la variable respuesta. Las diversas estrategias para encarar este problema se engloban en lo que se denomina reducción de la dimensión. Cook [2007] introduce el concepto de reducción suficiente, y el modelo de principal fitted components (PFC). Cook y Forzani [2008] calcula el estimador de máxima verosimilitud (MV) para el modelo PFC suponiendo que los errores tienen distribución normal multivariada. Sin embargo, cuando hay contaminación o la distribución de los errores no es normal multivariada, los estimadores de MV se ven muy afectados y por lo tanto en estos casos, pueden ser muy poco informativos. En esta tesis proponemos estimadores robustos de tipo τ para estimar el modelo PFC y por consiguiente para la correspondiente reducción suficiente. Estos estimadores están basados en una τ-escala (ver Yohai y Zamar [1988]). Definimos el τ-funcional de estimación del cual se derivan los τ-estimadores propuestos. Se demuestra que bajo condiciones generales estos estimadores son fuertemente consistentes. A partir de las ecuaciones de estimación se obtiene una expresión para los τ-estimadores similar a la de MV, excepto que las observaciones aparecen acompañadas por pesos que, a su vez, dependen de los parámetros. Esto sugiere un algoritmo iterativo natural para computar los τ . También se discute cómo obtener valores iniciales para este algoritmo. Un estudio de Monte Carlo permite comparar los τ -estimadores y los estimadores de MV bajo el modelo PFC y bajo contaminación por outliers. Los resultados de esta simulación muestran claras ventajas para los τ -estimadores. También se presenta una propuesta de selección de la dimensión del espacio de reducción basada en validación cruzada. Finalmente, ilustramos la aplicación del método con dos ejemplos de datos reales. Las demostraciones de los resultados se presentan en varios apéndices.
Non-parametric estimating procedures are flexible tools to study the relationship between a continuous response and a vector of explanatory variables. However these methods require a number of observations that grows exponentially with the number of explanatory variables. One way to overcome this situation is to obtain a reduced number of new variables that contain the same information on the response than the original ones. Several strategies have been proposed to achieve this dimension reduction. Cook [2007] introduces the concept of suficient reduction and the principal fitted components (PFC) model. Cook and Forzani [2008] obtain the maximum likelihood (ML) for the PFC model assuming that the error distribution is multivariate normal. However these estimators may be much affected for outlier contamination or a non normal error distribution, and therefore, when this occurs, they may not be much informative. In this thesis we propose robust estimators for the parameters of the PFC model based on a τ -scale (see Yohai and Zamar [1988]), and therefore we provide robust estimators for the suficient reduction too. We define the τestimating functional that generate the τestimators for the PFC model. We prove that under general assumptions this τestimators are strongly consistent. We obtain the estimating equations that characterize the critical points of the τ-estimator. Using these equations we can express the τestimators as a weighted ML estimator where the weight for each observation depends on the parameters. This expression suggests a natural iterative algorithm to compute the τestimators. We also discuss how to obtain starting values for the parameters of the algorithm. We perform a simulation study to compare the τ and ML-estimators. The simulation results show that the τestimators compare favorably with respect to the ML-estimator. We also propose a procedure based on cross validation to choose the dimension of the suficient reduction. Finally,we illustrate the advantages of the proposed estimation procedure using two real datasets. The proofs of the main results can be found in several appendices.
Fil: Szretter Noste, María Eugenia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Las técnicas no paramétricas son herramientas flexibles para poder estudiar la relación entre una variable aleatoria continua y un vector de covariables explicativas, pero para su aplicación requieren un número de observaciones que crece exponencialmente con la dimensión p del vector de covariables. Una manera de poder enfrentar la estimación no-paramétrica con una muestra de tamaño moderado y p grande, es obtener un número reducido de nuevas variables explicativas sin disminuir la información que ellas provean sobre la variable respuesta. Las diversas estrategias para encarar este problema se engloban en lo que se denomina reducción de la dimensión. Cook [2007] introduce el concepto de reducción suficiente, y el modelo de principal fitted components (PFC). Cook y Forzani [2008] calcula el estimador de máxima verosimilitud (MV) para el modelo PFC suponiendo que los errores tienen distribución normal multivariada. Sin embargo, cuando hay contaminación o la distribución de los errores no es normal multivariada, los estimadores de MV se ven muy afectados y por lo tanto en estos casos, pueden ser muy poco informativos. En esta tesis proponemos estimadores robustos de tipo τ para estimar el modelo PFC y por consiguiente para la correspondiente reducción suficiente. Estos estimadores están basados en una τ-escala (ver Yohai y Zamar [1988]). Definimos el τ-funcional de estimación del cual se derivan los τ-estimadores propuestos. Se demuestra que bajo condiciones generales estos estimadores son fuertemente consistentes. A partir de las ecuaciones de estimación se obtiene una expresión para los τ-estimadores similar a la de MV, excepto que las observaciones aparecen acompañadas por pesos que, a su vez, dependen de los parámetros. Esto sugiere un algoritmo iterativo natural para computar los τ . También se discute cómo obtener valores iniciales para este algoritmo. Un estudio de Monte Carlo permite comparar los τ -estimadores y los estimadores de MV bajo el modelo PFC y bajo contaminación por outliers. Los resultados de esta simulación muestran claras ventajas para los τ -estimadores. También se presenta una propuesta de selección de la dimensión del espacio de reducción basada en validación cruzada. Finalmente, ilustramos la aplicación del método con dos ejemplos de datos reales. Las demostraciones de los resultados se presentan en varios apéndices.
publishDate 2017
dc.date.none.fl_str_mv 2017-10-06
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/tesis_n6322_SzretterNoste
url https://hdl.handle.net/20.500.12110/tesis_n6322_SzretterNoste
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618730562125824
score 13.070432