Reducción de dimensiones para datos composicionales en alta dimensión
- Autores
- Koplin, Eric Lionel
- Año de publicación
- 2023
- Idioma
- español castellano
- Tipo de recurso
- tesis doctoral
- Estado
- versión aceptada
- Colaborador/a o director/a de tesis
- Tomassi, Diego
Cafaro, Diego
Leonardi, Florencia
Rodriguez, Daniela
Forzani, Liliana - Descripción
- Fil: Koplin, Eric Lionel. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina.
La reducción de dimensiones es esencial en el análisis de datos complejos de alta dimensión para conservar información relevante y fundamentar conclusiones. Aunque ampliamente desarrollada en estadística y aprendizaje automático, requiere adaptaciones para datos complejos como los del microbioma humano, que influyen en enfermedades, tratamientos y desarrollo infantil. El microbioma, descrito como datos de conteo de alta dimensión que registra el número de microorganismos leídos en una muestra, presenta retos debido a su cuantificación compleja, abundancias relativas informativas, alta cantidad de ceros y variabilidad entre individuos. El análisis de estos datos busca identificar diferencias significativas en la composición del microbioma relacionadas con variables de interés, pero también explicar qué componentes impulsan estas asociaciones. Esta tesis introduce métodos basados en reducción suficiente de dimensiones y modelos gráficos para datos composicionales y de conteo de alta dimensión. Los modelos gráficos condicionales permiten modelar dependencias complejas entre componentes de la microbiota, describiéndolos como un ecosistema. Se presentan nuevos modelos gráficos capaces de manejar una gran proporción de ceros y se desarrollan algoritmos de estimación. La metodología incluye caracterización de distribuciones multivariadas y modelado de predictores como función de la respuesta, derivando la reducción suficiente de dimensiones (RSD). Se minimiza una divergencia con penalización jerárquica para identificar predictores asociados con la respuesta, produciendo estimadores consistentes aplicables a respuestas continuas o categóricas. Con selección de variables, las reducciones permiten evaluar asociaciones globales e identificar componentes clave de la microbiota. Los métodos se ilustran con simulaciones y datos reales de microbioma.
This thesis introduces novel methods for dimension reduction tailored to microbiome data, a type of complex high-dimensional compositional data characterized by its sparse nature and the presence of numerous zeros. The human microbiome is significant for various health outcomes, yet its complex data structure poses challenges for traditional statistical and machine learning approaches. Existing methods often fail to adequately address the unique features of microbiome data, such as its compositionality and sparsity. The proposed methodology leverages sufficient dimension reductions and graphical models to preserve relevant information and model complex dependencies among microbiota components. Specifically, new graphical models are introduced to handle the excess of zeros in the data. These models characterize multivariate distributions through univariate conditional distributions and use a pairwise graphical model framework to account for the zeros. A key innovation is the derivation of first-order sufficient dimension reduction (SDR), which identifies linear combinations of predictors that encapsulate all the information for regressing an outcome on these predictors. Estimation of the SDR involves minimizing a divergence with a graph-aware hierarchical penalty, inducing structured sparsity to pinpoint key predictors associated with the outcome. This method provides consistent estimators and is applicable to both continuous and categorical outcomes. The efficacy of these methods is demonstrated through simulations and real microbiome data analyses, highlighting their ability to visualize overall associations and identify crucial microbiota components driving these associations.
Consejo Nacional de Investigaciones Científicas y Técnicas - Materia
-
Modelos gráficos
Reducción suficiente de dimensiones
Selección de variables
Independencia condicional
Alta dimensión
Datos de conteo
Graphical model
Sufficient reduction in dimensions
Variable selection
Conditional independence
High dimension
Count data - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
- Repositorio
- Institución
- Universidad Nacional del Litoral
- OAI Identificador
- oai:https://bibliotecavirtual.unl.edu.ar:11185/7789
Ver los metadatos del registro completo
id |
UNLBT_e9769c1b36b768126b4426f78018dfd4 |
---|---|
oai_identifier_str |
oai:https://bibliotecavirtual.unl.edu.ar:11185/7789 |
network_acronym_str |
UNLBT |
repository_id_str |
2187 |
network_name_str |
Biblioteca Virtual (UNL) |
spelling |
Reducción de dimensiones para datos composicionales en alta dimensiónSufficient dimension reduction for high-dimensional compositional dataKoplin, Eric LionelModelos gráficosReducción suficiente de dimensionesSelección de variablesIndependencia condicionalAlta dimensiónDatos de conteoGraphical modelSufficient reduction in dimensionsVariable selectionConditional independenceHigh dimensionCount dataFil: Koplin, Eric Lionel. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina.La reducción de dimensiones es esencial en el análisis de datos complejos de alta dimensión para conservar información relevante y fundamentar conclusiones. Aunque ampliamente desarrollada en estadística y aprendizaje automático, requiere adaptaciones para datos complejos como los del microbioma humano, que influyen en enfermedades, tratamientos y desarrollo infantil. El microbioma, descrito como datos de conteo de alta dimensión que registra el número de microorganismos leídos en una muestra, presenta retos debido a su cuantificación compleja, abundancias relativas informativas, alta cantidad de ceros y variabilidad entre individuos. El análisis de estos datos busca identificar diferencias significativas en la composición del microbioma relacionadas con variables de interés, pero también explicar qué componentes impulsan estas asociaciones. Esta tesis introduce métodos basados en reducción suficiente de dimensiones y modelos gráficos para datos composicionales y de conteo de alta dimensión. Los modelos gráficos condicionales permiten modelar dependencias complejas entre componentes de la microbiota, describiéndolos como un ecosistema. Se presentan nuevos modelos gráficos capaces de manejar una gran proporción de ceros y se desarrollan algoritmos de estimación. La metodología incluye caracterización de distribuciones multivariadas y modelado de predictores como función de la respuesta, derivando la reducción suficiente de dimensiones (RSD). Se minimiza una divergencia con penalización jerárquica para identificar predictores asociados con la respuesta, produciendo estimadores consistentes aplicables a respuestas continuas o categóricas. Con selección de variables, las reducciones permiten evaluar asociaciones globales e identificar componentes clave de la microbiota. Los métodos se ilustran con simulaciones y datos reales de microbioma.This thesis introduces novel methods for dimension reduction tailored to microbiome data, a type of complex high-dimensional compositional data characterized by its sparse nature and the presence of numerous zeros. The human microbiome is significant for various health outcomes, yet its complex data structure poses challenges for traditional statistical and machine learning approaches. Existing methods often fail to adequately address the unique features of microbiome data, such as its compositionality and sparsity. The proposed methodology leverages sufficient dimension reductions and graphical models to preserve relevant information and model complex dependencies among microbiota components. Specifically, new graphical models are introduced to handle the excess of zeros in the data. These models characterize multivariate distributions through univariate conditional distributions and use a pairwise graphical model framework to account for the zeros. A key innovation is the derivation of first-order sufficient dimension reduction (SDR), which identifies linear combinations of predictors that encapsulate all the information for regressing an outcome on these predictors. Estimation of the SDR involves minimizing a divergence with a graph-aware hierarchical penalty, inducing structured sparsity to pinpoint key predictors associated with the outcome. This method provides consistent estimators and is applicable to both continuous and categorical outcomes. The efficacy of these methods is demonstrated through simulations and real microbiome data analyses, highlighting their ability to visualize overall associations and identify crucial microbiota components driving these associations.Consejo Nacional de Investigaciones Científicas y TécnicasTomassi, DiegoCafaro, DiegoLeonardi, FlorenciaRodriguez, DanielaForzani, Liliana2024-10-18T14:07:44Z2023-12-15SNRDinfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/11185/7789spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.esreponame:Biblioteca Virtual (UNL)instname:Universidad Nacional del Litoralinstacron:UNL2025-09-29T14:30:48Zoai:https://bibliotecavirtual.unl.edu.ar:11185/7789Institucionalhttp://bibliotecavirtual.unl.edu.ar/Universidad públicaNo correspondeajdeba@unl.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:21872025-09-29 14:30:49.095Biblioteca Virtual (UNL) - Universidad Nacional del Litoralfalse |
dc.title.none.fl_str_mv |
Reducción de dimensiones para datos composicionales en alta dimensión Sufficient dimension reduction for high-dimensional compositional data |
title |
Reducción de dimensiones para datos composicionales en alta dimensión |
spellingShingle |
Reducción de dimensiones para datos composicionales en alta dimensión Koplin, Eric Lionel Modelos gráficos Reducción suficiente de dimensiones Selección de variables Independencia condicional Alta dimensión Datos de conteo Graphical model Sufficient reduction in dimensions Variable selection Conditional independence High dimension Count data |
title_short |
Reducción de dimensiones para datos composicionales en alta dimensión |
title_full |
Reducción de dimensiones para datos composicionales en alta dimensión |
title_fullStr |
Reducción de dimensiones para datos composicionales en alta dimensión |
title_full_unstemmed |
Reducción de dimensiones para datos composicionales en alta dimensión |
title_sort |
Reducción de dimensiones para datos composicionales en alta dimensión |
dc.creator.none.fl_str_mv |
Koplin, Eric Lionel |
author |
Koplin, Eric Lionel |
author_facet |
Koplin, Eric Lionel |
author_role |
author |
dc.contributor.none.fl_str_mv |
Tomassi, Diego Cafaro, Diego Leonardi, Florencia Rodriguez, Daniela Forzani, Liliana |
dc.subject.none.fl_str_mv |
Modelos gráficos Reducción suficiente de dimensiones Selección de variables Independencia condicional Alta dimensión Datos de conteo Graphical model Sufficient reduction in dimensions Variable selection Conditional independence High dimension Count data |
topic |
Modelos gráficos Reducción suficiente de dimensiones Selección de variables Independencia condicional Alta dimensión Datos de conteo Graphical model Sufficient reduction in dimensions Variable selection Conditional independence High dimension Count data |
dc.description.none.fl_txt_mv |
Fil: Koplin, Eric Lionel. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina. La reducción de dimensiones es esencial en el análisis de datos complejos de alta dimensión para conservar información relevante y fundamentar conclusiones. Aunque ampliamente desarrollada en estadística y aprendizaje automático, requiere adaptaciones para datos complejos como los del microbioma humano, que influyen en enfermedades, tratamientos y desarrollo infantil. El microbioma, descrito como datos de conteo de alta dimensión que registra el número de microorganismos leídos en una muestra, presenta retos debido a su cuantificación compleja, abundancias relativas informativas, alta cantidad de ceros y variabilidad entre individuos. El análisis de estos datos busca identificar diferencias significativas en la composición del microbioma relacionadas con variables de interés, pero también explicar qué componentes impulsan estas asociaciones. Esta tesis introduce métodos basados en reducción suficiente de dimensiones y modelos gráficos para datos composicionales y de conteo de alta dimensión. Los modelos gráficos condicionales permiten modelar dependencias complejas entre componentes de la microbiota, describiéndolos como un ecosistema. Se presentan nuevos modelos gráficos capaces de manejar una gran proporción de ceros y se desarrollan algoritmos de estimación. La metodología incluye caracterización de distribuciones multivariadas y modelado de predictores como función de la respuesta, derivando la reducción suficiente de dimensiones (RSD). Se minimiza una divergencia con penalización jerárquica para identificar predictores asociados con la respuesta, produciendo estimadores consistentes aplicables a respuestas continuas o categóricas. Con selección de variables, las reducciones permiten evaluar asociaciones globales e identificar componentes clave de la microbiota. Los métodos se ilustran con simulaciones y datos reales de microbioma. This thesis introduces novel methods for dimension reduction tailored to microbiome data, a type of complex high-dimensional compositional data characterized by its sparse nature and the presence of numerous zeros. The human microbiome is significant for various health outcomes, yet its complex data structure poses challenges for traditional statistical and machine learning approaches. Existing methods often fail to adequately address the unique features of microbiome data, such as its compositionality and sparsity. The proposed methodology leverages sufficient dimension reductions and graphical models to preserve relevant information and model complex dependencies among microbiota components. Specifically, new graphical models are introduced to handle the excess of zeros in the data. These models characterize multivariate distributions through univariate conditional distributions and use a pairwise graphical model framework to account for the zeros. A key innovation is the derivation of first-order sufficient dimension reduction (SDR), which identifies linear combinations of predictors that encapsulate all the information for regressing an outcome on these predictors. Estimation of the SDR involves minimizing a divergence with a graph-aware hierarchical penalty, inducing structured sparsity to pinpoint key predictors associated with the outcome. This method provides consistent estimators and is applicable to both continuous and categorical outcomes. The efficacy of these methods is demonstrated through simulations and real microbiome data analyses, highlighting their ability to visualize overall associations and identify crucial microbiota components driving these associations. Consejo Nacional de Investigaciones Científicas y Técnicas |
description |
Fil: Koplin, Eric Lionel. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-12-15 2024-10-18T14:07:44Z |
dc.type.none.fl_str_mv |
SNRD info:eu-repo/semantics/doctoralThesis info:eu-repo/semantics/acceptedVersion http://purl.org/coar/resource_type/c_db06 info:ar-repo/semantics/tesisDoctoral |
format |
doctoralThesis |
status_str |
acceptedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/11185/7789 |
url |
https://hdl.handle.net/11185/7789 |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Virtual (UNL) instname:Universidad Nacional del Litoral instacron:UNL |
reponame_str |
Biblioteca Virtual (UNL) |
collection |
Biblioteca Virtual (UNL) |
instname_str |
Universidad Nacional del Litoral |
instacron_str |
UNL |
institution |
UNL |
repository.name.fl_str_mv |
Biblioteca Virtual (UNL) - Universidad Nacional del Litoral |
repository.mail.fl_str_mv |
jdeba@unl.edu.ar |
_version_ |
1844621950710710272 |
score |
12.559606 |