Reducción de dimensiones para datos composicionales en alta dimensión

Autores
Koplin, Eric Lionel
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión aceptada
Colaborador/a o director/a de tesis
Tomassi, Diego
Cafaro, Diego
Leonardi, Florencia
Rodriguez, Daniela
Forzani, Liliana
Descripción
Fil: Koplin, Eric Lionel. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina.
La reducción de dimensiones es esencial en el análisis de datos complejos de alta dimensión para conservar información relevante y fundamentar conclusiones. Aunque ampliamente desarrollada en estadística y aprendizaje automático, requiere adaptaciones para datos complejos como los del microbioma humano, que influyen en enfermedades, tratamientos y desarrollo infantil. El microbioma, descrito como datos de conteo de alta dimensión que registra el número de microorganismos leídos en una muestra, presenta retos debido a su cuantificación compleja, abundancias relativas informativas, alta cantidad de ceros y variabilidad entre individuos. El análisis de estos datos busca identificar diferencias significativas en la composición del microbioma relacionadas con variables de interés, pero también explicar qué componentes impulsan estas asociaciones. Esta tesis introduce métodos basados en reducción suficiente de dimensiones y modelos gráficos para datos composicionales y de conteo de alta dimensión. Los modelos gráficos condicionales permiten modelar dependencias complejas entre componentes de la microbiota, describiéndolos como un ecosistema. Se presentan nuevos modelos gráficos capaces de manejar una gran proporción de ceros y se desarrollan algoritmos de estimación. La metodología incluye caracterización de distribuciones multivariadas y modelado de predictores como función de la respuesta, derivando la reducción suficiente de dimensiones (RSD). Se minimiza una divergencia con penalización jerárquica para identificar predictores asociados con la respuesta, produciendo estimadores consistentes aplicables a respuestas continuas o categóricas. Con selección de variables, las reducciones permiten evaluar asociaciones globales e identificar componentes clave de la microbiota. Los métodos se ilustran con simulaciones y datos reales de microbioma.
This thesis introduces novel methods for dimension reduction tailored to microbiome data, a type of complex high-dimensional compositional data characterized by its sparse nature and the presence of numerous zeros. The human microbiome is significant for various health outcomes, yet its complex data structure poses challenges for traditional statistical and machine learning approaches. Existing methods often fail to adequately address the unique features of microbiome data, such as its compositionality and sparsity. The proposed methodology leverages sufficient dimension reductions and graphical models to preserve relevant information and model complex dependencies among microbiota components. Specifically, new graphical models are introduced to handle the excess of zeros in the data. These models characterize multivariate distributions through univariate conditional distributions and use a pairwise graphical model framework to account for the zeros. A key innovation is the derivation of first-order sufficient dimension reduction (SDR), which identifies linear combinations of predictors that encapsulate all the information for regressing an outcome on these predictors. Estimation of the SDR involves minimizing a divergence with a graph-aware hierarchical penalty, inducing structured sparsity to pinpoint key predictors associated with the outcome. This method provides consistent estimators and is applicable to both continuous and categorical outcomes. The efficacy of these methods is demonstrated through simulations and real microbiome data analyses, highlighting their ability to visualize overall associations and identify crucial microbiota components driving these associations.
Consejo Nacional de Investigaciones Científicas y Técnicas
Materia
Modelos gráficos
Reducción suficiente de dimensiones
Selección de variables
Independencia condicional
Alta dimensión
Datos de conteo
Graphical model
Sufficient reduction in dimensions
Variable selection
Conditional independence
High dimension
Count data
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
Repositorio
Biblioteca Virtual (UNL)
Institución
Universidad Nacional del Litoral
OAI Identificador
oai:https://bibliotecavirtual.unl.edu.ar:11185/7789

id UNLBT_e9769c1b36b768126b4426f78018dfd4
oai_identifier_str oai:https://bibliotecavirtual.unl.edu.ar:11185/7789
network_acronym_str UNLBT
repository_id_str 2187
network_name_str Biblioteca Virtual (UNL)
spelling Reducción de dimensiones para datos composicionales en alta dimensiónSufficient dimension reduction for high-dimensional compositional dataKoplin, Eric LionelModelos gráficosReducción suficiente de dimensionesSelección de variablesIndependencia condicionalAlta dimensiónDatos de conteoGraphical modelSufficient reduction in dimensionsVariable selectionConditional independenceHigh dimensionCount dataFil: Koplin, Eric Lionel. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina.La reducción de dimensiones es esencial en el análisis de datos complejos de alta dimensión para conservar información relevante y fundamentar conclusiones. Aunque ampliamente desarrollada en estadística y aprendizaje automático, requiere adaptaciones para datos complejos como los del microbioma humano, que influyen en enfermedades, tratamientos y desarrollo infantil. El microbioma, descrito como datos de conteo de alta dimensión que registra el número de microorganismos leídos en una muestra, presenta retos debido a su cuantificación compleja, abundancias relativas informativas, alta cantidad de ceros y variabilidad entre individuos. El análisis de estos datos busca identificar diferencias significativas en la composición del microbioma relacionadas con variables de interés, pero también explicar qué componentes impulsan estas asociaciones. Esta tesis introduce métodos basados en reducción suficiente de dimensiones y modelos gráficos para datos composicionales y de conteo de alta dimensión. Los modelos gráficos condicionales permiten modelar dependencias complejas entre componentes de la microbiota, describiéndolos como un ecosistema. Se presentan nuevos modelos gráficos capaces de manejar una gran proporción de ceros y se desarrollan algoritmos de estimación. La metodología incluye caracterización de distribuciones multivariadas y modelado de predictores como función de la respuesta, derivando la reducción suficiente de dimensiones (RSD). Se minimiza una divergencia con penalización jerárquica para identificar predictores asociados con la respuesta, produciendo estimadores consistentes aplicables a respuestas continuas o categóricas. Con selección de variables, las reducciones permiten evaluar asociaciones globales e identificar componentes clave de la microbiota. Los métodos se ilustran con simulaciones y datos reales de microbioma.This thesis introduces novel methods for dimension reduction tailored to microbiome data, a type of complex high-dimensional compositional data characterized by its sparse nature and the presence of numerous zeros. The human microbiome is significant for various health outcomes, yet its complex data structure poses challenges for traditional statistical and machine learning approaches. Existing methods often fail to adequately address the unique features of microbiome data, such as its compositionality and sparsity. The proposed methodology leverages sufficient dimension reductions and graphical models to preserve relevant information and model complex dependencies among microbiota components. Specifically, new graphical models are introduced to handle the excess of zeros in the data. These models characterize multivariate distributions through univariate conditional distributions and use a pairwise graphical model framework to account for the zeros. A key innovation is the derivation of first-order sufficient dimension reduction (SDR), which identifies linear combinations of predictors that encapsulate all the information for regressing an outcome on these predictors. Estimation of the SDR involves minimizing a divergence with a graph-aware hierarchical penalty, inducing structured sparsity to pinpoint key predictors associated with the outcome. This method provides consistent estimators and is applicable to both continuous and categorical outcomes. The efficacy of these methods is demonstrated through simulations and real microbiome data analyses, highlighting their ability to visualize overall associations and identify crucial microbiota components driving these associations.Consejo Nacional de Investigaciones Científicas y TécnicasTomassi, DiegoCafaro, DiegoLeonardi, FlorenciaRodriguez, DanielaForzani, Liliana2024-10-18T14:07:44Z2023-12-15SNRDinfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/11185/7789spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.esreponame:Biblioteca Virtual (UNL)instname:Universidad Nacional del Litoralinstacron:UNL2025-09-29T14:30:48Zoai:https://bibliotecavirtual.unl.edu.ar:11185/7789Institucionalhttp://bibliotecavirtual.unl.edu.ar/Universidad públicaNo correspondeajdeba@unl.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:21872025-09-29 14:30:49.095Biblioteca Virtual (UNL) - Universidad Nacional del Litoralfalse
dc.title.none.fl_str_mv Reducción de dimensiones para datos composicionales en alta dimensión
Sufficient dimension reduction for high-dimensional compositional data
title Reducción de dimensiones para datos composicionales en alta dimensión
spellingShingle Reducción de dimensiones para datos composicionales en alta dimensión
Koplin, Eric Lionel
Modelos gráficos
Reducción suficiente de dimensiones
Selección de variables
Independencia condicional
Alta dimensión
Datos de conteo
Graphical model
Sufficient reduction in dimensions
Variable selection
Conditional independence
High dimension
Count data
title_short Reducción de dimensiones para datos composicionales en alta dimensión
title_full Reducción de dimensiones para datos composicionales en alta dimensión
title_fullStr Reducción de dimensiones para datos composicionales en alta dimensión
title_full_unstemmed Reducción de dimensiones para datos composicionales en alta dimensión
title_sort Reducción de dimensiones para datos composicionales en alta dimensión
dc.creator.none.fl_str_mv Koplin, Eric Lionel
author Koplin, Eric Lionel
author_facet Koplin, Eric Lionel
author_role author
dc.contributor.none.fl_str_mv Tomassi, Diego
Cafaro, Diego
Leonardi, Florencia
Rodriguez, Daniela
Forzani, Liliana
dc.subject.none.fl_str_mv Modelos gráficos
Reducción suficiente de dimensiones
Selección de variables
Independencia condicional
Alta dimensión
Datos de conteo
Graphical model
Sufficient reduction in dimensions
Variable selection
Conditional independence
High dimension
Count data
topic Modelos gráficos
Reducción suficiente de dimensiones
Selección de variables
Independencia condicional
Alta dimensión
Datos de conteo
Graphical model
Sufficient reduction in dimensions
Variable selection
Conditional independence
High dimension
Count data
dc.description.none.fl_txt_mv Fil: Koplin, Eric Lionel. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina.
La reducción de dimensiones es esencial en el análisis de datos complejos de alta dimensión para conservar información relevante y fundamentar conclusiones. Aunque ampliamente desarrollada en estadística y aprendizaje automático, requiere adaptaciones para datos complejos como los del microbioma humano, que influyen en enfermedades, tratamientos y desarrollo infantil. El microbioma, descrito como datos de conteo de alta dimensión que registra el número de microorganismos leídos en una muestra, presenta retos debido a su cuantificación compleja, abundancias relativas informativas, alta cantidad de ceros y variabilidad entre individuos. El análisis de estos datos busca identificar diferencias significativas en la composición del microbioma relacionadas con variables de interés, pero también explicar qué componentes impulsan estas asociaciones. Esta tesis introduce métodos basados en reducción suficiente de dimensiones y modelos gráficos para datos composicionales y de conteo de alta dimensión. Los modelos gráficos condicionales permiten modelar dependencias complejas entre componentes de la microbiota, describiéndolos como un ecosistema. Se presentan nuevos modelos gráficos capaces de manejar una gran proporción de ceros y se desarrollan algoritmos de estimación. La metodología incluye caracterización de distribuciones multivariadas y modelado de predictores como función de la respuesta, derivando la reducción suficiente de dimensiones (RSD). Se minimiza una divergencia con penalización jerárquica para identificar predictores asociados con la respuesta, produciendo estimadores consistentes aplicables a respuestas continuas o categóricas. Con selección de variables, las reducciones permiten evaluar asociaciones globales e identificar componentes clave de la microbiota. Los métodos se ilustran con simulaciones y datos reales de microbioma.
This thesis introduces novel methods for dimension reduction tailored to microbiome data, a type of complex high-dimensional compositional data characterized by its sparse nature and the presence of numerous zeros. The human microbiome is significant for various health outcomes, yet its complex data structure poses challenges for traditional statistical and machine learning approaches. Existing methods often fail to adequately address the unique features of microbiome data, such as its compositionality and sparsity. The proposed methodology leverages sufficient dimension reductions and graphical models to preserve relevant information and model complex dependencies among microbiota components. Specifically, new graphical models are introduced to handle the excess of zeros in the data. These models characterize multivariate distributions through univariate conditional distributions and use a pairwise graphical model framework to account for the zeros. A key innovation is the derivation of first-order sufficient dimension reduction (SDR), which identifies linear combinations of predictors that encapsulate all the information for regressing an outcome on these predictors. Estimation of the SDR involves minimizing a divergence with a graph-aware hierarchical penalty, inducing structured sparsity to pinpoint key predictors associated with the outcome. This method provides consistent estimators and is applicable to both continuous and categorical outcomes. The efficacy of these methods is demonstrated through simulations and real microbiome data analyses, highlighting their ability to visualize overall associations and identify crucial microbiota components driving these associations.
Consejo Nacional de Investigaciones Científicas y Técnicas
description Fil: Koplin, Eric Lionel. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-15
2024-10-18T14:07:44Z
dc.type.none.fl_str_mv SNRD
info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/acceptedVersion
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/11185/7789
url https://hdl.handle.net/11185/7789
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Virtual (UNL)
instname:Universidad Nacional del Litoral
instacron:UNL
reponame_str Biblioteca Virtual (UNL)
collection Biblioteca Virtual (UNL)
instname_str Universidad Nacional del Litoral
instacron_str UNL
institution UNL
repository.name.fl_str_mv Biblioteca Virtual (UNL) - Universidad Nacional del Litoral
repository.mail.fl_str_mv jdeba@unl.edu.ar
_version_ 1844621950710710272
score 12.559606