Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns

Autores
Videla, María Eugenia; Iglesias, Juliana; Bruno, Cecilia Inés
Año de publicación
2021
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Fil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
Fil: Videla, María Eugenia. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.
Fil: Videla, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.
Fil: Videla, María Eugenia. Universidad Nacional de Villa María; Argentina.
Fil: Iglesias, Juliana. Universidad Nacional del Noroeste de la Provincia de Buenos Aires (UNNOBA); Argentina
Fil: Iglesias, Juliana. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Pergamino; Argentina.
Fil: Bruno, Cecilia Inés. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
Fil: Bruno, Cecilia Inés. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba); Argentina.
A number of clustering algorithms are available to depict population genetic structure (PGS) with genomic data; however, there is no consensus on which methods are the best performing ones. We conducted a simulation study of three PGS scenarios with subpopulations k = 2, 5 and 10, recreating several maize genomes as a model to: (1) compare three well-known clustering methods: UPGMA, k-means and, Bayesian method (BM); (2) asses four internal validation indices: CH, Connectivity, Dunn and Silhouette, to determine the reliable number of groups defining a PGS; and (3) estimate the misclassification rate for each validation index. Moreover, a publicly available maize dataset was used to illustrate the outcomes of our simulation. BM was the best method to classify individuals in all tested scenarios, without assignment errors. Conversely, UPGMA was the method with the highest misclassification rate. In scenarios with 5 and 10 subpopulations, CH and Connectivity indices had the maximum underestimation of group number for all cluster algorithms. Dunn and Silhouette indices showed the best performance with BM. Nevertheless, since Silhouette measures the degree of confidence in cluster assignment, and BM measures the probability of cluster membership, these results should be considered with caution. In this study we found that BM showed to be efficient to depict the PGS in both simulated and real maize datasets. This study offers a robust alternative to unveil the existing PGS, thereby facilitating population studies and breeding strategies in maize programs. Moreover, the present findings may have implications for other crop species.
publishedVersion
Fil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
Fil: Videla, María Eugenia. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.
Fil: Videla, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.
Fil: Videla, María Eugenia. Universidad Nacional de Villa María; Argentina.
Fil: Iglesias, Juliana. Universidad Nacional del Noroeste de la Provincia de Buenos Aires (UNNOBA); Argentina
Fil: Iglesias, Juliana. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Pergamino; Argentina.
Fil: Bruno, Cecilia Inés. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
Fil: Bruno, Cecilia Inés. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba); Argentina.
Materia
Maíz
Zea mays
Análisis multivariante
Métodos estadísticos
Genómica
Genética de poblaciones
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Repositorio
Repositorio Digital Universitario (UNC)
Institución
Universidad Nacional de Córdoba
OAI Identificador
oai:rdu.unc.edu.ar:11086/558480

id RDUUNC_e6ab1f8d1b684f61533961484494c440
oai_identifier_str oai:rdu.unc.edu.ar:11086/558480
network_acronym_str RDUUNC
repository_id_str 2572
network_name_str Repositorio Digital Universitario (UNC)
spelling Relative performance of cluster algorithms and validation indices in maize genome-wide structure patternsVidela, María EugeniaIglesias, JulianaBruno, Cecilia InésMaízZea maysAnálisis multivarianteMétodos estadísticosGenómicaGenética de poblacionesFil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.Fil: Videla, María Eugenia. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.Fil: Videla, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.Fil: Videla, María Eugenia. Universidad Nacional de Villa María; Argentina.Fil: Iglesias, Juliana. Universidad Nacional del Noroeste de la Provincia de Buenos Aires (UNNOBA); ArgentinaFil: Iglesias, Juliana. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Pergamino; Argentina.Fil: Bruno, Cecilia Inés. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.Fil: Bruno, Cecilia Inés. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba); Argentina.A number of clustering algorithms are available to depict population genetic structure (PGS) with genomic data; however, there is no consensus on which methods are the best performing ones. We conducted a simulation study of three PGS scenarios with subpopulations k = 2, 5 and 10, recreating several maize genomes as a model to: (1) compare three well-known clustering methods: UPGMA, k-means and, Bayesian method (BM); (2) asses four internal validation indices: CH, Connectivity, Dunn and Silhouette, to determine the reliable number of groups defining a PGS; and (3) estimate the misclassification rate for each validation index. Moreover, a publicly available maize dataset was used to illustrate the outcomes of our simulation. BM was the best method to classify individuals in all tested scenarios, without assignment errors. Conversely, UPGMA was the method with the highest misclassification rate. In scenarios with 5 and 10 subpopulations, CH and Connectivity indices had the maximum underestimation of group number for all cluster algorithms. Dunn and Silhouette indices showed the best performance with BM. Nevertheless, since Silhouette measures the degree of confidence in cluster assignment, and BM measures the probability of cluster membership, these results should be considered with caution. In this study we found that BM showed to be efficient to depict the PGS in both simulated and real maize datasets. This study offers a robust alternative to unveil the existing PGS, thereby facilitating population studies and breeding strategies in maize programs. Moreover, the present findings may have implications for other crop species.publishedVersionFil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.Fil: Videla, María Eugenia. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.Fil: Videla, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.Fil: Videla, María Eugenia. Universidad Nacional de Villa María; Argentina.Fil: Iglesias, Juliana. Universidad Nacional del Noroeste de la Provincia de Buenos Aires (UNNOBA); ArgentinaFil: Iglesias, Juliana. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Pergamino; Argentina.Fil: Bruno, Cecilia Inés. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.Fil: Bruno, Cecilia Inés. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba); Argentina.2021info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfVidela, M.E., Iglesias, J. & Bruno, C. I. (2021). Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns. Euphytica, 217 (10), 195 . https://doi.org/10.1007/s10681-021-02926-5https://doi.org/10.1007/s10681-021-02926-5http://hdl.handle.net/11086/558480enginfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2025-10-16T09:28:33Zoai:rdu.unc.edu.ar:11086/558480Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722025-10-16 09:28:34.253Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns
title Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns
spellingShingle Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns
Videla, María Eugenia
Maíz
Zea mays
Análisis multivariante
Métodos estadísticos
Genómica
Genética de poblaciones
title_short Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns
title_full Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns
title_fullStr Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns
title_full_unstemmed Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns
title_sort Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns
dc.creator.none.fl_str_mv Videla, María Eugenia
Iglesias, Juliana
Bruno, Cecilia Inés
author Videla, María Eugenia
author_facet Videla, María Eugenia
Iglesias, Juliana
Bruno, Cecilia Inés
author_role author
author2 Iglesias, Juliana
Bruno, Cecilia Inés
author2_role author
author
dc.subject.none.fl_str_mv Maíz
Zea mays
Análisis multivariante
Métodos estadísticos
Genómica
Genética de poblaciones
topic Maíz
Zea mays
Análisis multivariante
Métodos estadísticos
Genómica
Genética de poblaciones
dc.description.none.fl_txt_mv Fil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
Fil: Videla, María Eugenia. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.
Fil: Videla, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.
Fil: Videla, María Eugenia. Universidad Nacional de Villa María; Argentina.
Fil: Iglesias, Juliana. Universidad Nacional del Noroeste de la Provincia de Buenos Aires (UNNOBA); Argentina
Fil: Iglesias, Juliana. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Pergamino; Argentina.
Fil: Bruno, Cecilia Inés. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
Fil: Bruno, Cecilia Inés. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba); Argentina.
A number of clustering algorithms are available to depict population genetic structure (PGS) with genomic data; however, there is no consensus on which methods are the best performing ones. We conducted a simulation study of three PGS scenarios with subpopulations k = 2, 5 and 10, recreating several maize genomes as a model to: (1) compare three well-known clustering methods: UPGMA, k-means and, Bayesian method (BM); (2) asses four internal validation indices: CH, Connectivity, Dunn and Silhouette, to determine the reliable number of groups defining a PGS; and (3) estimate the misclassification rate for each validation index. Moreover, a publicly available maize dataset was used to illustrate the outcomes of our simulation. BM was the best method to classify individuals in all tested scenarios, without assignment errors. Conversely, UPGMA was the method with the highest misclassification rate. In scenarios with 5 and 10 subpopulations, CH and Connectivity indices had the maximum underestimation of group number for all cluster algorithms. Dunn and Silhouette indices showed the best performance with BM. Nevertheless, since Silhouette measures the degree of confidence in cluster assignment, and BM measures the probability of cluster membership, these results should be considered with caution. In this study we found that BM showed to be efficient to depict the PGS in both simulated and real maize datasets. This study offers a robust alternative to unveil the existing PGS, thereby facilitating population studies and breeding strategies in maize programs. Moreover, the present findings may have implications for other crop species.
publishedVersion
Fil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
Fil: Videla, María Eugenia. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.
Fil: Videla, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFYMA); Argentina.
Fil: Videla, María Eugenia. Universidad Nacional de Villa María; Argentina.
Fil: Iglesias, Juliana. Universidad Nacional del Noroeste de la Provincia de Buenos Aires (UNNOBA); Argentina
Fil: Iglesias, Juliana. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Pergamino; Argentina.
Fil: Bruno, Cecilia Inés. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
Fil: Bruno, Cecilia Inés. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba); Argentina.
description Fil: Videla, María Eugenia. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina.
publishDate 2021
dc.date.none.fl_str_mv 2021
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv Videla, M.E., Iglesias, J. & Bruno, C. I. (2021). Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns. Euphytica, 217 (10), 195 . https://doi.org/10.1007/s10681-021-02926-5
https://doi.org/10.1007/s10681-021-02926-5
http://hdl.handle.net/11086/558480
identifier_str_mv Videla, M.E., Iglesias, J. & Bruno, C. I. (2021). Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns. Euphytica, 217 (10), 195 . https://doi.org/10.1007/s10681-021-02926-5
url https://doi.org/10.1007/s10681-021-02926-5
http://hdl.handle.net/11086/558480
dc.language.none.fl_str_mv eng
language eng
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositorio Digital Universitario (UNC)
instname:Universidad Nacional de Córdoba
instacron:UNC
reponame_str Repositorio Digital Universitario (UNC)
collection Repositorio Digital Universitario (UNC)
instname_str Universidad Nacional de Córdoba
instacron_str UNC
institution UNC
repository.name.fl_str_mv Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv oca.unc@gmail.com
_version_ 1846143333384060928
score 13.22299