Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms

Autores
Raschia, Maria Agustina; Rios, Pablo Javier; Cordoba, Marcela Elisabet; Caffaro, María Eugenia; Donzelli, María Valeria; Maizon, Daniel Omar; Demitrio, Daniel Arturo; Poli, Mario Andres
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Resumen. La imputación o inferencia de genotipos faltantes utilizando correlaciones entre variantes obtenidas a partir de paneles de referencia puede ser llevada a cabo por programas específicos basados en la utilización de información genética familiar y/o poblacional o mediante la implementación de algoritmos de machine learning. El objetivo de este trabajo fue evaluar la precisión en la imputación lograda mediante distintas estrategias de machine learning, tras comparar genotipos imputados con los obtenidos por genotipificación con un microarreglo de mediana densidad de SNPs. Sobre una base de datos con genotipos de 966 ovinos en 57.876 SNPs, con 53,4% de genotipos faltantes, se exploraron tres estrategias de imputación basadas en el algoritmo random forest. Un subconjunto de los genotipos imputados, correspondientes a 232 animales en 30.924 SNPs, fue comparado con genotipos obtenidos por genotipificación. El porcentaje de concordancia obtenido para las tres estrategias fue de alrededor de 60%. Este bajo porcentaje puede atribuirse a la gran cantidad de genotipos no asignados del archivo de partida. Una estrategia para aumentar la precisión de la imputación podría ser aumentar el número de animales en la población de referencia y, de este modo, reducir la proporción de genotipos faltantes en el conjunto de datos. Abstract. The imputation or inference of missing genotypes using correlations between variants obtained from reference panels can be carried out by specific programs that utilize family and/or population genetic information or by implementing machine learning algorithms. The objective of this study was to evaluate the imputation accuracy achieved using different machine learning strategies by comparing imputed genotypes with those obtained by genotyping with a medium-density SNP microarray. To compare the performance of three imputation strategies using the random forest algorithm, we analyzed a database containing 966 sheep genotyped at 57,876 SNPs, where 53.4% of the data was missing. A subset of the imputed genotypes, corresponding to 232 animals at 30,924 SNPs, was compared with genotypes obtained by genotyping. The percentage of concordance obtained for the three strategies was approximately 60%. This low percentage can be attributed to the large number of missing genotypes in the source file. One strategy for increasing imputation accuracy would be to increase the number of animals in the reference population and thus reduce the proportion of missing genotypes in the data set.
Instituto de Investigación Genética, INTA
Fil: Raschia, Maria Agustina. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Rios, Pablo Javier. Universidad de Buenos Aires (UBA); Argentina
Fil: Rios, Pablo Javier. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; Argentina
Fil: Cordoba, Marcela Elisabet. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Caffaro, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Donzelli, María Valeria. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Donzelli, María Valeria. Facultad de Ciencias Agrarias. Universidad Nacional de Lomas de Zamora (UNLZ); Argentina
Fil: Maizon, Daniel Omar. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Anguil; Argentina
Fil: Maizon, Daniel Omar. Universidad Nacional de La Pampa (UNLP). Facultad de Agronomía; Argentina
Fil: Demitrio, Daniel Arturo. Instituto Nacional de Tecnología Agropecuaria (INTA). Coordinación Nacional de Relaciones Institucionales y Vinculación Tecnológica; Argentina
Fil: Demitrio, Daniel Arturo. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; Argentina
Fil: Poli, Mario Andres. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Poli, Mario Andres. Universidad del Salvador (USAL). Facultad de Ciencias Agrarias y Veterinarias; Argentina
Fuente
54 Jornadas Argentinas de Informática e Investigación Operativa (54 JAIIO) , 17 Congreso de AgroInformática (CAI 2025), Ciudad de Buenos Aires, 4 al 7 de agosto de 2025
Materia
Algoritmo
Aprendizaje Automático
Polimorfismo de Nucleótido Único
Genotipado
Algorithms
Machine Learning
Single Nucleotide Polymorphisms
Genotyping
Inferencia de Genotipos Faltantes
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
INTA Digital (INTA)
Institución
Instituto Nacional de Tecnología Agropecuaria
OAI Identificador
oai:localhost:20.500.12123/23378

id INTADig_a040d892159aceb608857446f05af9b0
oai_identifier_str oai:localhost:20.500.12123/23378
network_acronym_str INTADig
repository_id_str l
network_name_str INTA Digital (INTA)
spelling Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithmsRaschia, Maria AgustinaRios, Pablo JavierCordoba, Marcela ElisabetCaffaro, María EugeniaDonzelli, María ValeriaMaizon, Daniel OmarDemitrio, Daniel ArturoPoli, Mario AndresAlgoritmoAprendizaje AutomáticoPolimorfismo de Nucleótido ÚnicoGenotipadoAlgorithmsMachine LearningSingle Nucleotide PolymorphismsGenotypingInferencia de Genotipos FaltantesResumen. La imputación o inferencia de genotipos faltantes utilizando correlaciones entre variantes obtenidas a partir de paneles de referencia puede ser llevada a cabo por programas específicos basados en la utilización de información genética familiar y/o poblacional o mediante la implementación de algoritmos de machine learning. El objetivo de este trabajo fue evaluar la precisión en la imputación lograda mediante distintas estrategias de machine learning, tras comparar genotipos imputados con los obtenidos por genotipificación con un microarreglo de mediana densidad de SNPs. Sobre una base de datos con genotipos de 966 ovinos en 57.876 SNPs, con 53,4% de genotipos faltantes, se exploraron tres estrategias de imputación basadas en el algoritmo random forest. Un subconjunto de los genotipos imputados, correspondientes a 232 animales en 30.924 SNPs, fue comparado con genotipos obtenidos por genotipificación. El porcentaje de concordancia obtenido para las tres estrategias fue de alrededor de 60%. Este bajo porcentaje puede atribuirse a la gran cantidad de genotipos no asignados del archivo de partida. Una estrategia para aumentar la precisión de la imputación podría ser aumentar el número de animales en la población de referencia y, de este modo, reducir la proporción de genotipos faltantes en el conjunto de datos. Abstract. The imputation or inference of missing genotypes using correlations between variants obtained from reference panels can be carried out by specific programs that utilize family and/or population genetic information or by implementing machine learning algorithms. The objective of this study was to evaluate the imputation accuracy achieved using different machine learning strategies by comparing imputed genotypes with those obtained by genotyping with a medium-density SNP microarray. To compare the performance of three imputation strategies using the random forest algorithm, we analyzed a database containing 966 sheep genotyped at 57,876 SNPs, where 53.4% of the data was missing. A subset of the imputed genotypes, corresponding to 232 animals at 30,924 SNPs, was compared with genotypes obtained by genotyping. The percentage of concordance obtained for the three strategies was approximately 60%. This low percentage can be attributed to the large number of missing genotypes in the source file. One strategy for increasing imputation accuracy would be to increase the number of animals in the reference population and thus reduce the proportion of missing genotypes in the data set.Instituto de Investigación Genética, INTAFil: Raschia, Maria Agustina. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; ArgentinaFil: Rios, Pablo Javier. Universidad de Buenos Aires (UBA); ArgentinaFil: Rios, Pablo Javier. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; ArgentinaFil: Cordoba, Marcela Elisabet. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; ArgentinaFil: Caffaro, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; ArgentinaFil: Donzelli, María Valeria. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; ArgentinaFil: Donzelli, María Valeria. Facultad de Ciencias Agrarias. Universidad Nacional de Lomas de Zamora (UNLZ); ArgentinaFil: Maizon, Daniel Omar. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Anguil; ArgentinaFil: Maizon, Daniel Omar. Universidad Nacional de La Pampa (UNLP). Facultad de Agronomía; ArgentinaFil: Demitrio, Daniel Arturo. Instituto Nacional de Tecnología Agropecuaria (INTA). Coordinación Nacional de Relaciones Institucionales y Vinculación Tecnológica; ArgentinaFil: Demitrio, Daniel Arturo. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; ArgentinaFil: Poli, Mario Andres. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; ArgentinaFil: Poli, Mario Andres. Universidad del Salvador (USAL). Facultad de Ciencias Agrarias y Veterinarias; ArgentinaSociedad Argentina de Informática e Investigación Operativa (SADIO)2025-08-08T15:13:51Z2025-08-08T15:13:51Z2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://hdl.handle.net/20.500.12123/2337854 Jornadas Argentinas de Informática e Investigación Operativa (54 JAIIO) , 17 Congreso de AgroInformática (CAI 2025), Ciudad de Buenos Aires, 4 al 7 de agosto de 2025reponame:INTA Digital (INTA)instname:Instituto Nacional de Tecnología Agropecuariaspainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)2025-09-29T13:47:27Zoai:localhost:20.500.12123/23378instacron:INTAInstitucionalhttp://repositorio.inta.gob.ar/Organismo científico-tecnológicoNo correspondehttp://repositorio.inta.gob.ar/oai/requesttripaldi.nicolas@inta.gob.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:l2025-09-29 13:47:28.325INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuariafalse
dc.title.none.fl_str_mv Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
title Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
spellingShingle Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
Raschia, Maria Agustina
Algoritmo
Aprendizaje Automático
Polimorfismo de Nucleótido Único
Genotipado
Algorithms
Machine Learning
Single Nucleotide Polymorphisms
Genotyping
Inferencia de Genotipos Faltantes
title_short Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
title_full Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
title_fullStr Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
title_full_unstemmed Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
title_sort Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
dc.creator.none.fl_str_mv Raschia, Maria Agustina
Rios, Pablo Javier
Cordoba, Marcela Elisabet
Caffaro, María Eugenia
Donzelli, María Valeria
Maizon, Daniel Omar
Demitrio, Daniel Arturo
Poli, Mario Andres
author Raschia, Maria Agustina
author_facet Raschia, Maria Agustina
Rios, Pablo Javier
Cordoba, Marcela Elisabet
Caffaro, María Eugenia
Donzelli, María Valeria
Maizon, Daniel Omar
Demitrio, Daniel Arturo
Poli, Mario Andres
author_role author
author2 Rios, Pablo Javier
Cordoba, Marcela Elisabet
Caffaro, María Eugenia
Donzelli, María Valeria
Maizon, Daniel Omar
Demitrio, Daniel Arturo
Poli, Mario Andres
author2_role author
author
author
author
author
author
author
dc.subject.none.fl_str_mv Algoritmo
Aprendizaje Automático
Polimorfismo de Nucleótido Único
Genotipado
Algorithms
Machine Learning
Single Nucleotide Polymorphisms
Genotyping
Inferencia de Genotipos Faltantes
topic Algoritmo
Aprendizaje Automático
Polimorfismo de Nucleótido Único
Genotipado
Algorithms
Machine Learning
Single Nucleotide Polymorphisms
Genotyping
Inferencia de Genotipos Faltantes
dc.description.none.fl_txt_mv Resumen. La imputación o inferencia de genotipos faltantes utilizando correlaciones entre variantes obtenidas a partir de paneles de referencia puede ser llevada a cabo por programas específicos basados en la utilización de información genética familiar y/o poblacional o mediante la implementación de algoritmos de machine learning. El objetivo de este trabajo fue evaluar la precisión en la imputación lograda mediante distintas estrategias de machine learning, tras comparar genotipos imputados con los obtenidos por genotipificación con un microarreglo de mediana densidad de SNPs. Sobre una base de datos con genotipos de 966 ovinos en 57.876 SNPs, con 53,4% de genotipos faltantes, se exploraron tres estrategias de imputación basadas en el algoritmo random forest. Un subconjunto de los genotipos imputados, correspondientes a 232 animales en 30.924 SNPs, fue comparado con genotipos obtenidos por genotipificación. El porcentaje de concordancia obtenido para las tres estrategias fue de alrededor de 60%. Este bajo porcentaje puede atribuirse a la gran cantidad de genotipos no asignados del archivo de partida. Una estrategia para aumentar la precisión de la imputación podría ser aumentar el número de animales en la población de referencia y, de este modo, reducir la proporción de genotipos faltantes en el conjunto de datos. Abstract. The imputation or inference of missing genotypes using correlations between variants obtained from reference panels can be carried out by specific programs that utilize family and/or population genetic information or by implementing machine learning algorithms. The objective of this study was to evaluate the imputation accuracy achieved using different machine learning strategies by comparing imputed genotypes with those obtained by genotyping with a medium-density SNP microarray. To compare the performance of three imputation strategies using the random forest algorithm, we analyzed a database containing 966 sheep genotyped at 57,876 SNPs, where 53.4% of the data was missing. A subset of the imputed genotypes, corresponding to 232 animals at 30,924 SNPs, was compared with genotypes obtained by genotyping. The percentage of concordance obtained for the three strategies was approximately 60%. This low percentage can be attributed to the large number of missing genotypes in the source file. One strategy for increasing imputation accuracy would be to increase the number of animals in the reference population and thus reduce the proportion of missing genotypes in the data set.
Instituto de Investigación Genética, INTA
Fil: Raschia, Maria Agustina. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Rios, Pablo Javier. Universidad de Buenos Aires (UBA); Argentina
Fil: Rios, Pablo Javier. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; Argentina
Fil: Cordoba, Marcela Elisabet. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Caffaro, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Donzelli, María Valeria. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Donzelli, María Valeria. Facultad de Ciencias Agrarias. Universidad Nacional de Lomas de Zamora (UNLZ); Argentina
Fil: Maizon, Daniel Omar. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Anguil; Argentina
Fil: Maizon, Daniel Omar. Universidad Nacional de La Pampa (UNLP). Facultad de Agronomía; Argentina
Fil: Demitrio, Daniel Arturo. Instituto Nacional de Tecnología Agropecuaria (INTA). Coordinación Nacional de Relaciones Institucionales y Vinculación Tecnológica; Argentina
Fil: Demitrio, Daniel Arturo. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; Argentina
Fil: Poli, Mario Andres. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Poli, Mario Andres. Universidad del Salvador (USAL). Facultad de Ciencias Agrarias y Veterinarias; Argentina
description Resumen. La imputación o inferencia de genotipos faltantes utilizando correlaciones entre variantes obtenidas a partir de paneles de referencia puede ser llevada a cabo por programas específicos basados en la utilización de información genética familiar y/o poblacional o mediante la implementación de algoritmos de machine learning. El objetivo de este trabajo fue evaluar la precisión en la imputación lograda mediante distintas estrategias de machine learning, tras comparar genotipos imputados con los obtenidos por genotipificación con un microarreglo de mediana densidad de SNPs. Sobre una base de datos con genotipos de 966 ovinos en 57.876 SNPs, con 53,4% de genotipos faltantes, se exploraron tres estrategias de imputación basadas en el algoritmo random forest. Un subconjunto de los genotipos imputados, correspondientes a 232 animales en 30.924 SNPs, fue comparado con genotipos obtenidos por genotipificación. El porcentaje de concordancia obtenido para las tres estrategias fue de alrededor de 60%. Este bajo porcentaje puede atribuirse a la gran cantidad de genotipos no asignados del archivo de partida. Una estrategia para aumentar la precisión de la imputación podría ser aumentar el número de animales en la población de referencia y, de este modo, reducir la proporción de genotipos faltantes en el conjunto de datos. Abstract. The imputation or inference of missing genotypes using correlations between variants obtained from reference panels can be carried out by specific programs that utilize family and/or population genetic information or by implementing machine learning algorithms. The objective of this study was to evaluate the imputation accuracy achieved using different machine learning strategies by comparing imputed genotypes with those obtained by genotyping with a medium-density SNP microarray. To compare the performance of three imputation strategies using the random forest algorithm, we analyzed a database containing 966 sheep genotyped at 57,876 SNPs, where 53.4% of the data was missing. A subset of the imputed genotypes, corresponding to 232 animals at 30,924 SNPs, was compared with genotypes obtained by genotyping. The percentage of concordance obtained for the three strategies was approximately 60%. This low percentage can be attributed to the large number of missing genotypes in the source file. One strategy for increasing imputation accuracy would be to increase the number of animals in the reference population and thus reduce the proportion of missing genotypes in the data set.
publishDate 2025
dc.date.none.fl_str_mv 2025-08-08T15:13:51Z
2025-08-08T15:13:51Z
2025-08
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/20.500.12123/23378
url http://hdl.handle.net/20.500.12123/23378
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Sociedad Argentina de Informática e Investigación Operativa (SADIO)
publisher.none.fl_str_mv Sociedad Argentina de Informática e Investigación Operativa (SADIO)
dc.source.none.fl_str_mv 54 Jornadas Argentinas de Informática e Investigación Operativa (54 JAIIO) , 17 Congreso de AgroInformática (CAI 2025), Ciudad de Buenos Aires, 4 al 7 de agosto de 2025
reponame:INTA Digital (INTA)
instname:Instituto Nacional de Tecnología Agropecuaria
reponame_str INTA Digital (INTA)
collection INTA Digital (INTA)
instname_str Instituto Nacional de Tecnología Agropecuaria
repository.name.fl_str_mv INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuaria
repository.mail.fl_str_mv tripaldi.nicolas@inta.gob.ar
_version_ 1844619207781646336
score 12.559606