Big Data para Quimiometría: Distribución asintótica del estimador PLS en alta dimensión

Autores
Basa, Jerónimo
Año de publicación
2022
Idioma
español castellano
Tipo de recurso
tesis de maestría
Estado
versión aceptada
Colaborador/a o director/a de tesis
Marcos, Miguel Andrés
Sued, Raquel Mariela
Bianco, Ana María
Rodríguez, Daniela Andrea
Forzani, Liliana
Descripción
Fil: Basa, Jerónimo. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina.
Muchos de los problemas en estadística se basan en estudiar el comportamiento de una o más variables llamadas respuesta a partir de un conjunto de variables llamadas predictoras. Para ello se toman mediciones u observaciones, se hace un análisis exploratorio de estos datos y se propone un modelo matemático que explique su relación. Uno de los modelos más usados y estudiados es la regresión lineal. Cuando el número de predictores p es grande comparado con el tamaño de observaciones n, muchos de los métodos tradicionales en estadística comienzan a dar estimaciones que pueden ser muy pobres. En particular, en el contexto de regresión lineal se vuelve un problema estimar el vector de parámetros con el método de mínimos cuadrados, usado tradicionalmente en el caso n > p. El objetivo de esta tesis es extender los resultados de Cook y Forzani de 2018 para hallar la distribución (n,p) asintótica de la predicción PLS. En un contexto general, encontramos la presencia de un sesgo no aleatorio en esta convergencia y damos condiciones para que sea despreciable. Proponemos estimadores para la varianza asintótica y para el sesgo, mostrando su consistencia. Utilizando éstos deducimos a su vez intervalos de confianza y predicción para el parámetro dado por el modelo. Finalmente, mostramos ejemplos y simulaciones para ilustrar los resultados expuestos.
Many of the problems in statistics are based on studying the behavior of one or more variables called response from a set of variables called predictors. For this, measurements or observations are taken, an exploratory analysis of these data is made and a mathematical model is proposed to explain their relationship. One of the most used and studied models is linear regression. When the number of predictors p is large compared to the size of observations n, many of the traditional methods in statistics begin to give estimates that can be very poor. In particular, in the context of linear regression it becomes a problem to estimate the vector of parameters with the method of least squares, traditionally used in the case n > p. The objective of this thesis is to extend the results of Cook and Forzani from 2018 to find the asymptotic (n,p) distribution of the PLS prediction. In a general context, we find the presence of a non-random bias in this convergence and give conditions for it to be negligible. We propose estimators for the asymptotic variance and for the bias, showing their consistency. Using these we in turn deduce confidence and prediction intervals for the parameter given by the model. Finally, we show examples and simulations to illustrate the exposed results.
Consejo Nacional de Investigaciones Científicas y Técnicas
Materia
PLS
Regresión
Alta dimensión
Distribución
Asintótica
Quimiometría
PLS
Regression
Chemometric
Distribution
Asymptotic
High dimension
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
Repositorio
Biblioteca Virtual (UNL)
Institución
Universidad Nacional del Litoral
OAI Identificador
oai:https://bibliotecavirtual.unl.edu.ar:11185/6389

id UNLBT_d11834002d555e9abc9e8f5ad43d4e92
oai_identifier_str oai:https://bibliotecavirtual.unl.edu.ar:11185/6389
network_acronym_str UNLBT
repository_id_str 2187
network_name_str Biblioteca Virtual (UNL)
spelling Big Data para Quimiometría: Distribución asintótica del estimador PLS en alta dimensiónBig Data for Chemometric: Asymptotic distribution of PLS regression estimators in high dimensionBasa, JerónimoPLSRegresiónAlta dimensiónDistribuciónAsintóticaQuimiometríaPLSRegressionChemometricDistributionAsymptoticHigh dimensionFil: Basa, Jerónimo. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina.Muchos de los problemas en estadística se basan en estudiar el comportamiento de una o más variables llamadas respuesta a partir de un conjunto de variables llamadas predictoras. Para ello se toman mediciones u observaciones, se hace un análisis exploratorio de estos datos y se propone un modelo matemático que explique su relación. Uno de los modelos más usados y estudiados es la regresión lineal. Cuando el número de predictores p es grande comparado con el tamaño de observaciones n, muchos de los métodos tradicionales en estadística comienzan a dar estimaciones que pueden ser muy pobres. En particular, en el contexto de regresión lineal se vuelve un problema estimar el vector de parámetros con el método de mínimos cuadrados, usado tradicionalmente en el caso n > p. El objetivo de esta tesis es extender los resultados de Cook y Forzani de 2018 para hallar la distribución (n,p) asintótica de la predicción PLS. En un contexto general, encontramos la presencia de un sesgo no aleatorio en esta convergencia y damos condiciones para que sea despreciable. Proponemos estimadores para la varianza asintótica y para el sesgo, mostrando su consistencia. Utilizando éstos deducimos a su vez intervalos de confianza y predicción para el parámetro dado por el modelo. Finalmente, mostramos ejemplos y simulaciones para ilustrar los resultados expuestos.Many of the problems in statistics are based on studying the behavior of one or more variables called response from a set of variables called predictors. For this, measurements or observations are taken, an exploratory analysis of these data is made and a mathematical model is proposed to explain their relationship. One of the most used and studied models is linear regression. When the number of predictors p is large compared to the size of observations n, many of the traditional methods in statistics begin to give estimates that can be very poor. In particular, in the context of linear regression it becomes a problem to estimate the vector of parameters with the method of least squares, traditionally used in the case n > p. The objective of this thesis is to extend the results of Cook and Forzani from 2018 to find the asymptotic (n,p) distribution of the PLS prediction. In a general context, we find the presence of a non-random bias in this convergence and give conditions for it to be negligible. We propose estimators for the asymptotic variance and for the bias, showing their consistency. Using these we in turn deduce confidence and prediction intervals for the parameter given by the model. Finally, we show examples and simulations to illustrate the exposed results.Consejo Nacional de Investigaciones Científicas y TécnicasMarcos, Miguel AndrésSued, Raquel MarielaBianco, Ana MaríaRodríguez, Daniela AndreaForzani, Liliana2022-04-06T15:12:25Z2022-03-17SNRDinfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttps://hdl.handle.net/11185/6389spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.esreponame:Biblioteca Virtual (UNL)instname:Universidad Nacional del Litoralinstacron:UNL2025-09-04T11:16:08Zoai:https://bibliotecavirtual.unl.edu.ar:11185/6389Institucionalhttp://bibliotecavirtual.unl.edu.ar/Universidad públicaNo correspondeajdeba@unl.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:21872025-09-04 11:16:08.342Biblioteca Virtual (UNL) - Universidad Nacional del Litoralfalse
dc.title.none.fl_str_mv Big Data para Quimiometría: Distribución asintótica del estimador PLS en alta dimensión
Big Data for Chemometric: Asymptotic distribution of PLS regression estimators in high dimension
title Big Data para Quimiometría: Distribución asintótica del estimador PLS en alta dimensión
spellingShingle Big Data para Quimiometría: Distribución asintótica del estimador PLS en alta dimensión
Basa, Jerónimo
PLS
Regresión
Alta dimensión
Distribución
Asintótica
Quimiometría
PLS
Regression
Chemometric
Distribution
Asymptotic
High dimension
title_short Big Data para Quimiometría: Distribución asintótica del estimador PLS en alta dimensión
title_full Big Data para Quimiometría: Distribución asintótica del estimador PLS en alta dimensión
title_fullStr Big Data para Quimiometría: Distribución asintótica del estimador PLS en alta dimensión
title_full_unstemmed Big Data para Quimiometría: Distribución asintótica del estimador PLS en alta dimensión
title_sort Big Data para Quimiometría: Distribución asintótica del estimador PLS en alta dimensión
dc.creator.none.fl_str_mv Basa, Jerónimo
author Basa, Jerónimo
author_facet Basa, Jerónimo
author_role author
dc.contributor.none.fl_str_mv Marcos, Miguel Andrés
Sued, Raquel Mariela
Bianco, Ana María
Rodríguez, Daniela Andrea
Forzani, Liliana
dc.subject.none.fl_str_mv PLS
Regresión
Alta dimensión
Distribución
Asintótica
Quimiometría
PLS
Regression
Chemometric
Distribution
Asymptotic
High dimension
topic PLS
Regresión
Alta dimensión
Distribución
Asintótica
Quimiometría
PLS
Regression
Chemometric
Distribution
Asymptotic
High dimension
dc.description.none.fl_txt_mv Fil: Basa, Jerónimo. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina.
Muchos de los problemas en estadística se basan en estudiar el comportamiento de una o más variables llamadas respuesta a partir de un conjunto de variables llamadas predictoras. Para ello se toman mediciones u observaciones, se hace un análisis exploratorio de estos datos y se propone un modelo matemático que explique su relación. Uno de los modelos más usados y estudiados es la regresión lineal. Cuando el número de predictores p es grande comparado con el tamaño de observaciones n, muchos de los métodos tradicionales en estadística comienzan a dar estimaciones que pueden ser muy pobres. En particular, en el contexto de regresión lineal se vuelve un problema estimar el vector de parámetros con el método de mínimos cuadrados, usado tradicionalmente en el caso n > p. El objetivo de esta tesis es extender los resultados de Cook y Forzani de 2018 para hallar la distribución (n,p) asintótica de la predicción PLS. En un contexto general, encontramos la presencia de un sesgo no aleatorio en esta convergencia y damos condiciones para que sea despreciable. Proponemos estimadores para la varianza asintótica y para el sesgo, mostrando su consistencia. Utilizando éstos deducimos a su vez intervalos de confianza y predicción para el parámetro dado por el modelo. Finalmente, mostramos ejemplos y simulaciones para ilustrar los resultados expuestos.
Many of the problems in statistics are based on studying the behavior of one or more variables called response from a set of variables called predictors. For this, measurements or observations are taken, an exploratory analysis of these data is made and a mathematical model is proposed to explain their relationship. One of the most used and studied models is linear regression. When the number of predictors p is large compared to the size of observations n, many of the traditional methods in statistics begin to give estimates that can be very poor. In particular, in the context of linear regression it becomes a problem to estimate the vector of parameters with the method of least squares, traditionally used in the case n > p. The objective of this thesis is to extend the results of Cook and Forzani from 2018 to find the asymptotic (n,p) distribution of the PLS prediction. In a general context, we find the presence of a non-random bias in this convergence and give conditions for it to be negligible. We propose estimators for the asymptotic variance and for the bias, showing their consistency. Using these we in turn deduce confidence and prediction intervals for the parameter given by the model. Finally, we show examples and simulations to illustrate the exposed results.
Consejo Nacional de Investigaciones Científicas y Técnicas
description Fil: Basa, Jerónimo. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina.
publishDate 2022
dc.date.none.fl_str_mv 2022-04-06T15:12:25Z
2022-03-17
dc.type.none.fl_str_mv SNRD
info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/acceptedVersion
http://purl.org/coar/resource_type/c_bdcc
info:ar-repo/semantics/tesisDeMaestria
format masterThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/11185/6389
url https://hdl.handle.net/11185/6389
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Virtual (UNL)
instname:Universidad Nacional del Litoral
instacron:UNL
reponame_str Biblioteca Virtual (UNL)
collection Biblioteca Virtual (UNL)
instname_str Universidad Nacional del Litoral
instacron_str UNL
institution UNL
repository.name.fl_str_mv Biblioteca Virtual (UNL) - Universidad Nacional del Litoral
repository.mail.fl_str_mv jdeba@unl.edu.ar
_version_ 1842344525072171008
score 12.623145