Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns
- Autores
- Videla, María Eugenia; Iglesias, Juliana; Bruno, Cecilia Inés
- Año de publicación
- 2021
- Idioma
- inglés
- Tipo de recurso
- artículo
- Estado
- versión publicada
- Descripción
- Fil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
Fil: Videla, María Eugenia. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.
Fil: Videla, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.
Fil: Videla, María Eugenia. Universidad Nacional de Villa María; Argentina.
Fil: Iglesias, Juliana. Universidad Nacional del Noroeste de la Provincia de Buenos Aires (UNNOBA); Argentina
Fil: Iglesias, Juliana. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Pergamino; Argentina.
Fil: Bruno, Cecilia Inés. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
Fil: Bruno, Cecilia Inés. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba); Argentina.
A number of clustering algorithms are available to depict population genetic structure (PGS) with genomic data; however, there is no consensus on which methods are the best performing ones. We conducted a simulation study of three PGS scenarios with subpopulations k = 2, 5 and 10, recreating several maize genomes as a model to: (1) compare three well-known clustering methods: UPGMA, k-means and, Bayesian method (BM); (2) asses four internal validation indices: CH, Connectivity, Dunn and Silhouette, to determine the reliable number of groups defining a PGS; and (3) estimate the misclassification rate for each validation index. Moreover, a publicly available maize dataset was used to illustrate the outcomes of our simulation. BM was the best method to classify individuals in all tested scenarios, without assignment errors. Conversely, UPGMA was the method with the highest misclassification rate. In scenarios with 5 and 10 subpopulations, CH and Connectivity indices had the maximum underestimation of group number for all cluster algorithms. Dunn and Silhouette indices showed the best performance with BM. Nevertheless, since Silhouette measures the degree of confidence in cluster assignment, and BM measures the probability of cluster membership, these results should be considered with caution. In this study we found that BM showed to be efficient to depict the PGS in both simulated and real maize datasets. This study offers a robust alternative to unveil the existing PGS, thereby facilitating population studies and breeding strategies in maize programs. Moreover, the present findings may have implications for other crop species.
publishedVersion
Fil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
Fil: Videla, María Eugenia. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.
Fil: Videla, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.
Fil: Videla, María Eugenia. Universidad Nacional de Villa María; Argentina.
Fil: Iglesias, Juliana. Universidad Nacional del Noroeste de la Provincia de Buenos Aires (UNNOBA); Argentina
Fil: Iglesias, Juliana. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Pergamino; Argentina.
Fil: Bruno, Cecilia Inés. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
Fil: Bruno, Cecilia Inés. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba); Argentina. - Materia
-
Maíz
Zea mays
Análisis multivariante
Métodos estadísticos
Genómica
Genética de poblaciones - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- Repositorio
- Institución
- Universidad Nacional de Córdoba
- OAI Identificador
- oai:rdu.unc.edu.ar:11086/558480
Ver los metadatos del registro completo
id |
RDUUNC_e6ab1f8d1b684f61533961484494c440 |
---|---|
oai_identifier_str |
oai:rdu.unc.edu.ar:11086/558480 |
network_acronym_str |
RDUUNC |
repository_id_str |
2572 |
network_name_str |
Repositorio Digital Universitario (UNC) |
spelling |
Relative performance of cluster algorithms and validation indices in maize genome-wide structure patternsVidela, María EugeniaIglesias, JulianaBruno, Cecilia InésMaízZea maysAnálisis multivarianteMétodos estadísticosGenómicaGenética de poblacionesFil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.Fil: Videla, María Eugenia. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.Fil: Videla, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.Fil: Videla, María Eugenia. Universidad Nacional de Villa María; Argentina.Fil: Iglesias, Juliana. Universidad Nacional del Noroeste de la Provincia de Buenos Aires (UNNOBA); ArgentinaFil: Iglesias, Juliana. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Pergamino; Argentina.Fil: Bruno, Cecilia Inés. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.Fil: Bruno, Cecilia Inés. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba); Argentina.A number of clustering algorithms are available to depict population genetic structure (PGS) with genomic data; however, there is no consensus on which methods are the best performing ones. We conducted a simulation study of three PGS scenarios with subpopulations k = 2, 5 and 10, recreating several maize genomes as a model to: (1) compare three well-known clustering methods: UPGMA, k-means and, Bayesian method (BM); (2) asses four internal validation indices: CH, Connectivity, Dunn and Silhouette, to determine the reliable number of groups defining a PGS; and (3) estimate the misclassification rate for each validation index. Moreover, a publicly available maize dataset was used to illustrate the outcomes of our simulation. BM was the best method to classify individuals in all tested scenarios, without assignment errors. Conversely, UPGMA was the method with the highest misclassification rate. In scenarios with 5 and 10 subpopulations, CH and Connectivity indices had the maximum underestimation of group number for all cluster algorithms. Dunn and Silhouette indices showed the best performance with BM. Nevertheless, since Silhouette measures the degree of confidence in cluster assignment, and BM measures the probability of cluster membership, these results should be considered with caution. In this study we found that BM showed to be efficient to depict the PGS in both simulated and real maize datasets. This study offers a robust alternative to unveil the existing PGS, thereby facilitating population studies and breeding strategies in maize programs. Moreover, the present findings may have implications for other crop species.publishedVersionFil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.Fil: Videla, María Eugenia. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.Fil: Videla, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.Fil: Videla, María Eugenia. Universidad Nacional de Villa María; Argentina.Fil: Iglesias, Juliana. Universidad Nacional del Noroeste de la Provincia de Buenos Aires (UNNOBA); ArgentinaFil: Iglesias, Juliana. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Pergamino; Argentina.Fil: Bruno, Cecilia Inés. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.Fil: Bruno, Cecilia Inés. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba); Argentina.2021info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfVidela, M.E., Iglesias, J. & Bruno, C. I. (2021). Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns. Euphytica, 217 (10), 195 . https://doi.org/10.1007/s10681-021-02926-5https://doi.org/10.1007/s10681-021-02926-5http://hdl.handle.net/11086/558480enginfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2025-10-16T09:28:33Zoai:rdu.unc.edu.ar:11086/558480Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722025-10-16 09:28:34.253Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse |
dc.title.none.fl_str_mv |
Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns |
title |
Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns |
spellingShingle |
Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns Videla, María Eugenia Maíz Zea mays Análisis multivariante Métodos estadísticos Genómica Genética de poblaciones |
title_short |
Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns |
title_full |
Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns |
title_fullStr |
Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns |
title_full_unstemmed |
Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns |
title_sort |
Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns |
dc.creator.none.fl_str_mv |
Videla, María Eugenia Iglesias, Juliana Bruno, Cecilia Inés |
author |
Videla, María Eugenia |
author_facet |
Videla, María Eugenia Iglesias, Juliana Bruno, Cecilia Inés |
author_role |
author |
author2 |
Iglesias, Juliana Bruno, Cecilia Inés |
author2_role |
author author |
dc.subject.none.fl_str_mv |
Maíz Zea mays Análisis multivariante Métodos estadísticos Genómica Genética de poblaciones |
topic |
Maíz Zea mays Análisis multivariante Métodos estadísticos Genómica Genética de poblaciones |
dc.description.none.fl_txt_mv |
Fil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. Fil: Videla, María Eugenia. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina. Fil: Videla, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina. Fil: Videla, María Eugenia. Universidad Nacional de Villa María; Argentina. Fil: Iglesias, Juliana. Universidad Nacional del Noroeste de la Provincia de Buenos Aires (UNNOBA); Argentina Fil: Iglesias, Juliana. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Pergamino; Argentina. Fil: Bruno, Cecilia Inés. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. Fil: Bruno, Cecilia Inés. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba); Argentina. A number of clustering algorithms are available to depict population genetic structure (PGS) with genomic data; however, there is no consensus on which methods are the best performing ones. We conducted a simulation study of three PGS scenarios with subpopulations k = 2, 5 and 10, recreating several maize genomes as a model to: (1) compare three well-known clustering methods: UPGMA, k-means and, Bayesian method (BM); (2) asses four internal validation indices: CH, Connectivity, Dunn and Silhouette, to determine the reliable number of groups defining a PGS; and (3) estimate the misclassification rate for each validation index. Moreover, a publicly available maize dataset was used to illustrate the outcomes of our simulation. BM was the best method to classify individuals in all tested scenarios, without assignment errors. Conversely, UPGMA was the method with the highest misclassification rate. In scenarios with 5 and 10 subpopulations, CH and Connectivity indices had the maximum underestimation of group number for all cluster algorithms. Dunn and Silhouette indices showed the best performance with BM. Nevertheless, since Silhouette measures the degree of confidence in cluster assignment, and BM measures the probability of cluster membership, these results should be considered with caution. In this study we found that BM showed to be efficient to depict the PGS in both simulated and real maize datasets. This study offers a robust alternative to unveil the existing PGS, thereby facilitating population studies and breeding strategies in maize programs. Moreover, the present findings may have implications for other crop species. publishedVersion Fil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. Fil: Videla, María Eugenia. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina. Fil: Videla, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina. Fil: Videla, María Eugenia. Universidad Nacional de Villa María; Argentina. Fil: Iglesias, Juliana. Universidad Nacional del Noroeste de la Provincia de Buenos Aires (UNNOBA); Argentina Fil: Iglesias, Juliana. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Pergamino; Argentina. Fil: Bruno, Cecilia Inés. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. Fil: Bruno, Cecilia Inés. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba); Argentina. |
description |
Fil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
format |
article |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
Videla, M.E., Iglesias, J. & Bruno, C. I. (2021). Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns. Euphytica, 217 (10), 195 . https://doi.org/10.1007/s10681-021-02926-5 https://doi.org/10.1007/s10681-021-02926-5 http://hdl.handle.net/11086/558480 |
identifier_str_mv |
Videla, M.E., Iglesias, J. & Bruno, C. I. (2021). Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns. Euphytica, 217 (10), 195 . https://doi.org/10.1007/s10681-021-02926-5 |
url |
https://doi.org/10.1007/s10681-021-02926-5 http://hdl.handle.net/11086/558480 |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositorio Digital Universitario (UNC) instname:Universidad Nacional de Córdoba instacron:UNC |
reponame_str |
Repositorio Digital Universitario (UNC) |
collection |
Repositorio Digital Universitario (UNC) |
instname_str |
Universidad Nacional de Córdoba |
instacron_str |
UNC |
institution |
UNC |
repository.name.fl_str_mv |
Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba |
repository.mail.fl_str_mv |
oca.unc@gmail.com |
_version_ |
1846143333384060928 |
score |
13.22299 |