Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradas

Autores
Peña Malavera, Andrea Natalia; Gutierrez, Lucia; Balzarini, Monica Graciela
Año de publicación
2016
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión publicada
Descripción
El mapeo asociativo (MA) es usado para encontrar regiones específicas del genoma relacionadas con la variación de un carácter fenotípico. Sin embargo, se ha detectado que en poblaciones con estructura genética poblacional (EGP), la cantidad de falsos positivos en la asociación fenotipogenotipo aumenta. El objetivo de este trabajo fue evaluar el desempeño de modelos de MA que consideran la EGP mediante distintas estrategias desarrolladas bajo la teoría de los modelos mixtos. Se evaluaron modelos de regresión fenotipo-genotipo incluyendo las siguientes matrices para modelar EGP: matriz Q (probabilidad de pertenencia de cada individuo a cada subpoblación), matriz P (componentes principales de los datos de marcadores), matriz K o de parentesco genético entre las líneas de la población de mapeo. Las columnas de las matrices Q y P fueron usadas en el modelo de MA como covariables de efecto fijo y alternativamente, como efectos aleatorios. También se evaluaron modelos incluyendo simultáneamente las matrices Q y K, así como P y K. El modelo de referencia (“naive”) fue el modelo de regresión que no contempló EGP. Los criterios de comparación de modelos fueron la función de distribución empírica de valores-p, la tasa FDR (False Discovery Rate) y la potencia estadística. Los resultados sugieren que el uso de la matriz K, sola o junto con la matriz Q, fue la estrategia de mayor impacto para disminuir la tasa de detección de falsas asociaciones. Esto se observó independientemente del nivel de divergencia genética, entre las subpoblaciones que constituían la población de mapeo.
Association mapping is used to find specific regions in the genome related to changes in a phenotypic trait. However, it has been found that in genetically structured populations, the number of false positives increases. The aim of this study was to compare the performance of several association mapping statistical models that take into account the underlying population genetic structure. Different statistical strategies developed under the mixed model theory were evaluated. The compared association models included the following matrices to model genetic structure: Q-matrix (probability of membership of each individual to each subpopulation), P-matrix (principal components of marker data capturing the structure variance) and K-matrix (containing genetic relationships between the individuals of the mapping population). The columns of Q-matrix and P-matrix were used in the associative mapping model as fixed effect covariates as well as random effect covariates. We also evaluated models including simultaneously Q-matrix and K-matrix, or either as P-matrix and K-matrix. The reference model (naïve model) was a regression model that did not account for genetic structure. Model comparison criteria were the empirical distributions of p-values, the FDR (False Discovery Rate) and the statistical power. The results suggest that the use of the K-matrix, alone or together with the Q-matrix reduced the false positive rate regardless of the level of genetic divergence among underlying subpopulations.
Fil: Peña Malavera, Andrea Natalia. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina
Fil: Gutierrez, Lucia. University of Wisconsin; Estados Unidos
Fil: Balzarini, Monica Graciela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina
Materia
MODELOS LINEALES MIXTOS
ESTRUCTURA GENETICA POBLACIONAL
TASA DE FALSOS POSITIVOS
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/180042

id CONICETDig_c49d98b31a207eb91ee61106610bba59
oai_identifier_str oai:ri.conicet.gov.ar:11336/180042
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradasStatistical models for phenotype-genotype association studies in genetically structured populationsPeña Malavera, Andrea NataliaGutierrez, LuciaBalzarini, Monica GracielaMODELOS LINEALES MIXTOSESTRUCTURA GENETICA POBLACIONALTASA DE FALSOS POSITIVOShttps://purl.org/becyt/ford/1.7https://purl.org/becyt/ford/1El mapeo asociativo (MA) es usado para encontrar regiones específicas del genoma relacionadas con la variación de un carácter fenotípico. Sin embargo, se ha detectado que en poblaciones con estructura genética poblacional (EGP), la cantidad de falsos positivos en la asociación fenotipogenotipo aumenta. El objetivo de este trabajo fue evaluar el desempeño de modelos de MA que consideran la EGP mediante distintas estrategias desarrolladas bajo la teoría de los modelos mixtos. Se evaluaron modelos de regresión fenotipo-genotipo incluyendo las siguientes matrices para modelar EGP: matriz Q (probabilidad de pertenencia de cada individuo a cada subpoblación), matriz P (componentes principales de los datos de marcadores), matriz K o de parentesco genético entre las líneas de la población de mapeo. Las columnas de las matrices Q y P fueron usadas en el modelo de MA como covariables de efecto fijo y alternativamente, como efectos aleatorios. También se evaluaron modelos incluyendo simultáneamente las matrices Q y K, así como P y K. El modelo de referencia (“naive”) fue el modelo de regresión que no contempló EGP. Los criterios de comparación de modelos fueron la función de distribución empírica de valores-p, la tasa FDR (False Discovery Rate) y la potencia estadística. Los resultados sugieren que el uso de la matriz K, sola o junto con la matriz Q, fue la estrategia de mayor impacto para disminuir la tasa de detección de falsas asociaciones. Esto se observó independientemente del nivel de divergencia genética, entre las subpoblaciones que constituían la población de mapeo.Association mapping is used to find specific regions in the genome related to changes in a phenotypic trait. However, it has been found that in genetically structured populations, the number of false positives increases. The aim of this study was to compare the performance of several association mapping statistical models that take into account the underlying population genetic structure. Different statistical strategies developed under the mixed model theory were evaluated. The compared association models included the following matrices to model genetic structure: Q-matrix (probability of membership of each individual to each subpopulation), P-matrix (principal components of marker data capturing the structure variance) and K-matrix (containing genetic relationships between the individuals of the mapping population). The columns of Q-matrix and P-matrix were used in the associative mapping model as fixed effect covariates as well as random effect covariates. We also evaluated models including simultaneously Q-matrix and K-matrix, or either as P-matrix and K-matrix. The reference model (naïve model) was a regression model that did not account for genetic structure. Model comparison criteria were the empirical distributions of p-values, the FDR (False Discovery Rate) and the statistical power. The results suggest that the use of the K-matrix, alone or together with the Q-matrix reduced the false positive rate regardless of the level of genetic divergence among underlying subpopulations.Fil: Peña Malavera, Andrea Natalia. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; ArgentinaFil: Gutierrez, Lucia. University of Wisconsin; Estados UnidosFil: Balzarini, Monica Graciela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; ArgentinaSociedad Argentina de Genética2016-12info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/180042Peña Malavera, Andrea Natalia; Gutierrez, Lucia; Balzarini, Monica Graciela; Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradas; Sociedad Argentina de Genética; Journal of Basic and Applied Genetics; 27; 2; 12-2016; 49-581852-6233CONICET DigitalCONICETspainfo:eu-repo/semantics/altIdentifier/url/http://www.scielo.org.ar/scielo.php?script=sci_abstract&pid=S1852-62332016000300005&lng=en&nrm=iso&tlng=eninfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T09:44:06Zoai:ri.conicet.gov.ar:11336/180042instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 09:44:07.005CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradas
Statistical models for phenotype-genotype association studies in genetically structured populations
title Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradas
spellingShingle Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradas
Peña Malavera, Andrea Natalia
MODELOS LINEALES MIXTOS
ESTRUCTURA GENETICA POBLACIONAL
TASA DE FALSOS POSITIVOS
title_short Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradas
title_full Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradas
title_fullStr Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradas
title_full_unstemmed Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradas
title_sort Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradas
dc.creator.none.fl_str_mv Peña Malavera, Andrea Natalia
Gutierrez, Lucia
Balzarini, Monica Graciela
author Peña Malavera, Andrea Natalia
author_facet Peña Malavera, Andrea Natalia
Gutierrez, Lucia
Balzarini, Monica Graciela
author_role author
author2 Gutierrez, Lucia
Balzarini, Monica Graciela
author2_role author
author
dc.subject.none.fl_str_mv MODELOS LINEALES MIXTOS
ESTRUCTURA GENETICA POBLACIONAL
TASA DE FALSOS POSITIVOS
topic MODELOS LINEALES MIXTOS
ESTRUCTURA GENETICA POBLACIONAL
TASA DE FALSOS POSITIVOS
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.7
https://purl.org/becyt/ford/1
dc.description.none.fl_txt_mv El mapeo asociativo (MA) es usado para encontrar regiones específicas del genoma relacionadas con la variación de un carácter fenotípico. Sin embargo, se ha detectado que en poblaciones con estructura genética poblacional (EGP), la cantidad de falsos positivos en la asociación fenotipogenotipo aumenta. El objetivo de este trabajo fue evaluar el desempeño de modelos de MA que consideran la EGP mediante distintas estrategias desarrolladas bajo la teoría de los modelos mixtos. Se evaluaron modelos de regresión fenotipo-genotipo incluyendo las siguientes matrices para modelar EGP: matriz Q (probabilidad de pertenencia de cada individuo a cada subpoblación), matriz P (componentes principales de los datos de marcadores), matriz K o de parentesco genético entre las líneas de la población de mapeo. Las columnas de las matrices Q y P fueron usadas en el modelo de MA como covariables de efecto fijo y alternativamente, como efectos aleatorios. También se evaluaron modelos incluyendo simultáneamente las matrices Q y K, así como P y K. El modelo de referencia (“naive”) fue el modelo de regresión que no contempló EGP. Los criterios de comparación de modelos fueron la función de distribución empírica de valores-p, la tasa FDR (False Discovery Rate) y la potencia estadística. Los resultados sugieren que el uso de la matriz K, sola o junto con la matriz Q, fue la estrategia de mayor impacto para disminuir la tasa de detección de falsas asociaciones. Esto se observó independientemente del nivel de divergencia genética, entre las subpoblaciones que constituían la población de mapeo.
Association mapping is used to find specific regions in the genome related to changes in a phenotypic trait. However, it has been found that in genetically structured populations, the number of false positives increases. The aim of this study was to compare the performance of several association mapping statistical models that take into account the underlying population genetic structure. Different statistical strategies developed under the mixed model theory were evaluated. The compared association models included the following matrices to model genetic structure: Q-matrix (probability of membership of each individual to each subpopulation), P-matrix (principal components of marker data capturing the structure variance) and K-matrix (containing genetic relationships between the individuals of the mapping population). The columns of Q-matrix and P-matrix were used in the associative mapping model as fixed effect covariates as well as random effect covariates. We also evaluated models including simultaneously Q-matrix and K-matrix, or either as P-matrix and K-matrix. The reference model (naïve model) was a regression model that did not account for genetic structure. Model comparison criteria were the empirical distributions of p-values, the FDR (False Discovery Rate) and the statistical power. The results suggest that the use of the K-matrix, alone or together with the Q-matrix reduced the false positive rate regardless of the level of genetic divergence among underlying subpopulations.
Fil: Peña Malavera, Andrea Natalia. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina
Fil: Gutierrez, Lucia. University of Wisconsin; Estados Unidos
Fil: Balzarini, Monica Graciela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina
description El mapeo asociativo (MA) es usado para encontrar regiones específicas del genoma relacionadas con la variación de un carácter fenotípico. Sin embargo, se ha detectado que en poblaciones con estructura genética poblacional (EGP), la cantidad de falsos positivos en la asociación fenotipogenotipo aumenta. El objetivo de este trabajo fue evaluar el desempeño de modelos de MA que consideran la EGP mediante distintas estrategias desarrolladas bajo la teoría de los modelos mixtos. Se evaluaron modelos de regresión fenotipo-genotipo incluyendo las siguientes matrices para modelar EGP: matriz Q (probabilidad de pertenencia de cada individuo a cada subpoblación), matriz P (componentes principales de los datos de marcadores), matriz K o de parentesco genético entre las líneas de la población de mapeo. Las columnas de las matrices Q y P fueron usadas en el modelo de MA como covariables de efecto fijo y alternativamente, como efectos aleatorios. También se evaluaron modelos incluyendo simultáneamente las matrices Q y K, así como P y K. El modelo de referencia (“naive”) fue el modelo de regresión que no contempló EGP. Los criterios de comparación de modelos fueron la función de distribución empírica de valores-p, la tasa FDR (False Discovery Rate) y la potencia estadística. Los resultados sugieren que el uso de la matriz K, sola o junto con la matriz Q, fue la estrategia de mayor impacto para disminuir la tasa de detección de falsas asociaciones. Esto se observó independientemente del nivel de divergencia genética, entre las subpoblaciones que constituían la población de mapeo.
publishDate 2016
dc.date.none.fl_str_mv 2016-12
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/180042
Peña Malavera, Andrea Natalia; Gutierrez, Lucia; Balzarini, Monica Graciela; Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradas; Sociedad Argentina de Genética; Journal of Basic and Applied Genetics; 27; 2; 12-2016; 49-58
1852-6233
CONICET Digital
CONICET
url http://hdl.handle.net/11336/180042
identifier_str_mv Peña Malavera, Andrea Natalia; Gutierrez, Lucia; Balzarini, Monica Graciela; Modelos estadísticos para estudios de asociación fenotipogenotipo en poblaciones genéticamente estructuradas; Sociedad Argentina de Genética; Journal of Basic and Applied Genetics; 27; 2; 12-2016; 49-58
1852-6233
CONICET Digital
CONICET
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/http://www.scielo.org.ar/scielo.php?script=sci_abstract&pid=S1852-62332016000300005&lng=en&nrm=iso&tlng=en
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
application/pdf
dc.publisher.none.fl_str_mv Sociedad Argentina de Genética
publisher.none.fl_str_mv Sociedad Argentina de Genética
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1844613388823429120
score 13.070432