Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares

Autores
Peña Malavera, Andrea Natalia; Bruno, Cecilia Ines; Teich, Ingrid; Fernandez, Elmer Andres; Balzarini, Monica Graciela
Año de publicación
2010
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión publicada
Descripción
En el contexto de abundante información genómica, como la producida a partir de marcadores moleculares basados en ADN, es de interés identifi car la estructura genética subyacente en un conjunto de individuos, previo al análisis de asociación entre expresión de marcadores y fenotipo. Cuando existen subgrupos de individuos que difi eren sistemáticamente en las frecuencias alélicas de sus marcadores, se origina una estructura genética que, de no ser considerada, incrementa el riesgo de detectar asociaciones espurias entre marcadores y fenotipo. Diversos métodos estadísticos son utilizados para determinar la agrupación de individuos desde datos de marcadores moleculares que producen información discreta multidimensional, entre ellos métodos basados en algoritmos de conglomerados jerárquicos (UPGMA), conglomerados no jerárquicos (K-means), redes neuronales como los mapas auto-organizativos (SOM) y métodos de conglomerados bayesianos. En este trabajo comparamos la capacidad de tales algoritmos para detectar subpoblaciones (conglomerados genéticos) bajo dos escenarios biológicos de estructura poblacional: modelo de islas y modelo de contacto. Los algoritmos de conglomerado fueron evaluados simultáneamente usando conjuntos de datos de marcadores moleculares de expresión binaria simulados bajo ambos modelos biológicos. El método de conglomeración bayesiano fue el que mejor identifi có, entre los evaluados, las subpoblaciones simuladas bajo el modelo de migración de islas. Para el modelo de contacto la identifi cación de subgrupos fue difícil con cualquiera de los cuatro algoritmos de conglomeración evaluados.
Prior to association studies, and in the context of abundant genomic information provided by molecular markers, it is of interest to identify the underlying genetic structure of individuals. Genetic structure arises when markers´ allele frequencies diff er systematically between subgroups, and if it is not considered in association analysis, it increases the risk of detecting spurious associations between molecular markers and the phenotype of interest. A variety of statistical methods are used to determine groups of individuals from molecular markers that produce multidimensional discrete data, such as methods based on hierarchical (UPGMA) and non-hierarchical clustering algorithms (K-means), neural networks (SOM), and Bayesian clustering. In this study, we compared the capacity of these algorithms to detect genetic clusters under two diff erent biological scenarios: the island model and the contact model. Th e clustering algorithms were simultaneously evaluated using binary molecular marker data simulated under both biological scenarios. Bayesian clustering was the best model to identify subpopulations under the island migration model. However, in the contact model the identifi - cation of subgroups was diffi cult with all algorithms.
Fil: Peña Malavera, Andrea Natalia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina. Ministerio de Ciencia, Tecnología e Innovación Productiva. Agencia Nacional de Promoción Científica y Tecnológica. Fondo para la Investigación Científica y Tecnológica; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina
Fil: Bruno, Cecilia Ines. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina
Fil: Teich, Ingrid. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina
Fil: Fernandez, Elmer Andres. Universidad Catolica de Córdoba. Facultad de Ingeniería; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina
Fil: Balzarini, Monica Graciela. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina
Materia
CONGLOMERADOS JERÁRQUICOS
CONGLOMERADOS NO JERÁRQUICOS
MAPAS AUTO-ORGANIZATIVOS
CONGLOMERADO BAYESIANO
MODELOS DE MIGRACIÓN
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/188022

id CONICETDig_07275ab895573bb0fb372ad3efbae956
oai_identifier_str oai:ri.conicet.gov.ar:11336/188022
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores molecularesCluster analysis for identifi cation of genetic structure from molecular marker dataPeña Malavera, Andrea NataliaBruno, Cecilia InesTeich, IngridFernandez, Elmer AndresBalzarini, Monica GracielaCONGLOMERADOS JERÁRQUICOSCONGLOMERADOS NO JERÁRQUICOSMAPAS AUTO-ORGANIZATIVOSCONGLOMERADO BAYESIANOMODELOS DE MIGRACIÓNhttps://purl.org/becyt/ford/4.4https://purl.org/becyt/ford/4En el contexto de abundante información genómica, como la producida a partir de marcadores moleculares basados en ADN, es de interés identifi car la estructura genética subyacente en un conjunto de individuos, previo al análisis de asociación entre expresión de marcadores y fenotipo. Cuando existen subgrupos de individuos que difi eren sistemáticamente en las frecuencias alélicas de sus marcadores, se origina una estructura genética que, de no ser considerada, incrementa el riesgo de detectar asociaciones espurias entre marcadores y fenotipo. Diversos métodos estadísticos son utilizados para determinar la agrupación de individuos desde datos de marcadores moleculares que producen información discreta multidimensional, entre ellos métodos basados en algoritmos de conglomerados jerárquicos (UPGMA), conglomerados no jerárquicos (K-means), redes neuronales como los mapas auto-organizativos (SOM) y métodos de conglomerados bayesianos. En este trabajo comparamos la capacidad de tales algoritmos para detectar subpoblaciones (conglomerados genéticos) bajo dos escenarios biológicos de estructura poblacional: modelo de islas y modelo de contacto. Los algoritmos de conglomerado fueron evaluados simultáneamente usando conjuntos de datos de marcadores moleculares de expresión binaria simulados bajo ambos modelos biológicos. El método de conglomeración bayesiano fue el que mejor identifi có, entre los evaluados, las subpoblaciones simuladas bajo el modelo de migración de islas. Para el modelo de contacto la identifi cación de subgrupos fue difícil con cualquiera de los cuatro algoritmos de conglomeración evaluados.Prior to association studies, and in the context of abundant genomic information provided by molecular markers, it is of interest to identify the underlying genetic structure of individuals. Genetic structure arises when markers´ allele frequencies diff er systematically between subgroups, and if it is not considered in association analysis, it increases the risk of detecting spurious associations between molecular markers and the phenotype of interest. A variety of statistical methods are used to determine groups of individuals from molecular markers that produce multidimensional discrete data, such as methods based on hierarchical (UPGMA) and non-hierarchical clustering algorithms (K-means), neural networks (SOM), and Bayesian clustering. In this study, we compared the capacity of these algorithms to detect genetic clusters under two diff erent biological scenarios: the island model and the contact model. Th e clustering algorithms were simultaneously evaluated using binary molecular marker data simulated under both biological scenarios. Bayesian clustering was the best model to identify subpopulations under the island migration model. However, in the contact model the identifi - cation of subgroups was diffi cult with all algorithms.Fil: Peña Malavera, Andrea Natalia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina. Ministerio de Ciencia, Tecnología e Innovación Productiva. Agencia Nacional de Promoción Científica y Tecnológica. Fondo para la Investigación Científica y Tecnológica; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; ArgentinaFil: Bruno, Cecilia Ines. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; ArgentinaFil: Teich, Ingrid. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; ArgentinaFil: Fernandez, Elmer Andres. Universidad Catolica de Córdoba. Facultad de Ingeniería; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; ArgentinaFil: Balzarini, Monica Graciela. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; ArgentinaUniversidad de Tolima2010-10-08info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/188022Peña Malavera, Andrea Natalia; Bruno, Cecilia Ines; Teich, Ingrid; Fernandez, Elmer Andres; Balzarini, Monica Graciela; Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares; Universidad de Tolima; Tumbaga; 1; 5; 8-10-2010; 225-2361909-48411909-4841CONICET DigitalCONICETspainfo:eu-repo/semantics/altIdentifier/url/http://revistas.ut.edu.co/index.php/tumbaga/article/view/67info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-03T09:53:43Zoai:ri.conicet.gov.ar:11336/188022instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-03 09:53:43.271CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares
Cluster analysis for identifi cation of genetic structure from molecular marker data
title Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares
spellingShingle Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares
Peña Malavera, Andrea Natalia
CONGLOMERADOS JERÁRQUICOS
CONGLOMERADOS NO JERÁRQUICOS
MAPAS AUTO-ORGANIZATIVOS
CONGLOMERADO BAYESIANO
MODELOS DE MIGRACIÓN
title_short Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares
title_full Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares
title_fullStr Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares
title_full_unstemmed Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares
title_sort Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares
dc.creator.none.fl_str_mv Peña Malavera, Andrea Natalia
Bruno, Cecilia Ines
Teich, Ingrid
Fernandez, Elmer Andres
Balzarini, Monica Graciela
author Peña Malavera, Andrea Natalia
author_facet Peña Malavera, Andrea Natalia
Bruno, Cecilia Ines
Teich, Ingrid
Fernandez, Elmer Andres
Balzarini, Monica Graciela
author_role author
author2 Bruno, Cecilia Ines
Teich, Ingrid
Fernandez, Elmer Andres
Balzarini, Monica Graciela
author2_role author
author
author
author
dc.subject.none.fl_str_mv CONGLOMERADOS JERÁRQUICOS
CONGLOMERADOS NO JERÁRQUICOS
MAPAS AUTO-ORGANIZATIVOS
CONGLOMERADO BAYESIANO
MODELOS DE MIGRACIÓN
topic CONGLOMERADOS JERÁRQUICOS
CONGLOMERADOS NO JERÁRQUICOS
MAPAS AUTO-ORGANIZATIVOS
CONGLOMERADO BAYESIANO
MODELOS DE MIGRACIÓN
purl_subject.fl_str_mv https://purl.org/becyt/ford/4.4
https://purl.org/becyt/ford/4
dc.description.none.fl_txt_mv En el contexto de abundante información genómica, como la producida a partir de marcadores moleculares basados en ADN, es de interés identifi car la estructura genética subyacente en un conjunto de individuos, previo al análisis de asociación entre expresión de marcadores y fenotipo. Cuando existen subgrupos de individuos que difi eren sistemáticamente en las frecuencias alélicas de sus marcadores, se origina una estructura genética que, de no ser considerada, incrementa el riesgo de detectar asociaciones espurias entre marcadores y fenotipo. Diversos métodos estadísticos son utilizados para determinar la agrupación de individuos desde datos de marcadores moleculares que producen información discreta multidimensional, entre ellos métodos basados en algoritmos de conglomerados jerárquicos (UPGMA), conglomerados no jerárquicos (K-means), redes neuronales como los mapas auto-organizativos (SOM) y métodos de conglomerados bayesianos. En este trabajo comparamos la capacidad de tales algoritmos para detectar subpoblaciones (conglomerados genéticos) bajo dos escenarios biológicos de estructura poblacional: modelo de islas y modelo de contacto. Los algoritmos de conglomerado fueron evaluados simultáneamente usando conjuntos de datos de marcadores moleculares de expresión binaria simulados bajo ambos modelos biológicos. El método de conglomeración bayesiano fue el que mejor identifi có, entre los evaluados, las subpoblaciones simuladas bajo el modelo de migración de islas. Para el modelo de contacto la identifi cación de subgrupos fue difícil con cualquiera de los cuatro algoritmos de conglomeración evaluados.
Prior to association studies, and in the context of abundant genomic information provided by molecular markers, it is of interest to identify the underlying genetic structure of individuals. Genetic structure arises when markers´ allele frequencies diff er systematically between subgroups, and if it is not considered in association analysis, it increases the risk of detecting spurious associations between molecular markers and the phenotype of interest. A variety of statistical methods are used to determine groups of individuals from molecular markers that produce multidimensional discrete data, such as methods based on hierarchical (UPGMA) and non-hierarchical clustering algorithms (K-means), neural networks (SOM), and Bayesian clustering. In this study, we compared the capacity of these algorithms to detect genetic clusters under two diff erent biological scenarios: the island model and the contact model. Th e clustering algorithms were simultaneously evaluated using binary molecular marker data simulated under both biological scenarios. Bayesian clustering was the best model to identify subpopulations under the island migration model. However, in the contact model the identifi - cation of subgroups was diffi cult with all algorithms.
Fil: Peña Malavera, Andrea Natalia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina. Ministerio de Ciencia, Tecnología e Innovación Productiva. Agencia Nacional de Promoción Científica y Tecnológica. Fondo para la Investigación Científica y Tecnológica; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina
Fil: Bruno, Cecilia Ines. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina
Fil: Teich, Ingrid. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina
Fil: Fernandez, Elmer Andres. Universidad Catolica de Córdoba. Facultad de Ingeniería; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina
Fil: Balzarini, Monica Graciela. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Departamento de Desarrollo Rural. Area de Estadística y Biometría; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba; Argentina
description En el contexto de abundante información genómica, como la producida a partir de marcadores moleculares basados en ADN, es de interés identifi car la estructura genética subyacente en un conjunto de individuos, previo al análisis de asociación entre expresión de marcadores y fenotipo. Cuando existen subgrupos de individuos que difi eren sistemáticamente en las frecuencias alélicas de sus marcadores, se origina una estructura genética que, de no ser considerada, incrementa el riesgo de detectar asociaciones espurias entre marcadores y fenotipo. Diversos métodos estadísticos son utilizados para determinar la agrupación de individuos desde datos de marcadores moleculares que producen información discreta multidimensional, entre ellos métodos basados en algoritmos de conglomerados jerárquicos (UPGMA), conglomerados no jerárquicos (K-means), redes neuronales como los mapas auto-organizativos (SOM) y métodos de conglomerados bayesianos. En este trabajo comparamos la capacidad de tales algoritmos para detectar subpoblaciones (conglomerados genéticos) bajo dos escenarios biológicos de estructura poblacional: modelo de islas y modelo de contacto. Los algoritmos de conglomerado fueron evaluados simultáneamente usando conjuntos de datos de marcadores moleculares de expresión binaria simulados bajo ambos modelos biológicos. El método de conglomeración bayesiano fue el que mejor identifi có, entre los evaluados, las subpoblaciones simuladas bajo el modelo de migración de islas. Para el modelo de contacto la identifi cación de subgrupos fue difícil con cualquiera de los cuatro algoritmos de conglomeración evaluados.
publishDate 2010
dc.date.none.fl_str_mv 2010-10-08
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/188022
Peña Malavera, Andrea Natalia; Bruno, Cecilia Ines; Teich, Ingrid; Fernandez, Elmer Andres; Balzarini, Monica Graciela; Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares; Universidad de Tolima; Tumbaga; 1; 5; 8-10-2010; 225-236
1909-4841
1909-4841
CONICET Digital
CONICET
url http://hdl.handle.net/11336/188022
identifier_str_mv Peña Malavera, Andrea Natalia; Bruno, Cecilia Ines; Teich, Ingrid; Fernandez, Elmer Andres; Balzarini, Monica Graciela; Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares; Universidad de Tolima; Tumbaga; 1; 5; 8-10-2010; 225-236
1909-4841
CONICET Digital
CONICET
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/http://revistas.ut.edu.co/index.php/tumbaga/article/view/67
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
application/pdf
application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidad de Tolima
publisher.none.fl_str_mv Universidad de Tolima
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1842269243252408320
score 13.13397