Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
- Autores
- Raschia, Maria Agustina; Rios, Pablo Javier; Cordoba, Marcela Elisabet; Caffaro, María Eugenia; Donzelli, María Valeria; Maizon, Daniel Omar; Demitrio, Daniel Arturo; Poli, Mario Andres
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- Resumen. La imputación o inferencia de genotipos faltantes utilizando correlaciones entre variantes obtenidas a partir de paneles de referencia puede ser llevada a cabo por programas específicos basados en la utilización de información genética familiar y/o poblacional o mediante la implementación de algoritmos de machine learning. El objetivo de este trabajo fue evaluar la precisión en la imputación lograda mediante distintas estrategias de machine learning, tras comparar genotipos imputados con los obtenidos por genotipificación con un microarreglo de mediana densidad de SNPs. Sobre una base de datos con genotipos de 966 ovinos en 57.876 SNPs, con 53,4% de genotipos faltantes, se exploraron tres estrategias de imputación basadas en el algoritmo random forest. Un subconjunto de los genotipos imputados, correspondientes a 232 animales en 30.924 SNPs, fue comparado con genotipos obtenidos por genotipificación. El porcentaje de concordancia obtenido para las tres estrategias fue de alrededor de 60%. Este bajo porcentaje puede atribuirse a la gran cantidad de genotipos no asignados del archivo de partida. Una estrategia para aumentar la precisión de la imputación podría ser aumentar el número de animales en la población de referencia y, de este modo, reducir la proporción de genotipos faltantes en el conjunto de datos. Abstract. The imputation or inference of missing genotypes using correlations between variants obtained from reference panels can be carried out by specific programs that utilize family and/or population genetic information or by implementing machine learning algorithms. The objective of this study was to evaluate the imputation accuracy achieved using different machine learning strategies by comparing imputed genotypes with those obtained by genotyping with a medium-density SNP microarray. To compare the performance of three imputation strategies using the random forest algorithm, we analyzed a database containing 966 sheep genotyped at 57,876 SNPs, where 53.4% of the data was missing. A subset of the imputed genotypes, corresponding to 232 animals at 30,924 SNPs, was compared with genotypes obtained by genotyping. The percentage of concordance obtained for the three strategies was approximately 60%. This low percentage can be attributed to the large number of missing genotypes in the source file. One strategy for increasing imputation accuracy would be to increase the number of animals in the reference population and thus reduce the proportion of missing genotypes in the data set.
Instituto de Investigación Genética, INTA
Fil: Raschia, Maria Agustina. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Rios, Pablo Javier. Universidad de Buenos Aires (UBA); Argentina
Fil: Rios, Pablo Javier. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; Argentina
Fil: Cordoba, Marcela Elisabet. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Caffaro, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Donzelli, María Valeria. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Donzelli, María Valeria. Facultad de Ciencias Agrarias. Universidad Nacional de Lomas de Zamora (UNLZ); Argentina
Fil: Maizon, Daniel Omar. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Anguil; Argentina
Fil: Maizon, Daniel Omar. Universidad Nacional de La Pampa (UNLP). Facultad de Agronomía; Argentina
Fil: Demitrio, Daniel Arturo. Instituto Nacional de Tecnología Agropecuaria (INTA). Coordinación Nacional de Relaciones Institucionales y Vinculación Tecnológica; Argentina
Fil: Demitrio, Daniel Arturo. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; Argentina
Fil: Poli, Mario Andres. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina
Fil: Poli, Mario Andres. Universidad del Salvador (USAL). Facultad de Ciencias Agrarias y Veterinarias; Argentina - Fuente
- 54 Jornadas Argentinas de Informática e Investigación Operativa (54 JAIIO) , 17 Congreso de AgroInformática (CAI 2025), Ciudad de Buenos Aires, 4 al 7 de agosto de 2025
- Materia
-
Algoritmo
Aprendizaje Automático
Polimorfismo de Nucleótido Único
Genotipado
Algorithms
Machine Learning
Single Nucleotide Polymorphisms
Genotyping
Inferencia de Genotipos Faltantes - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
- Institución
- Instituto Nacional de Tecnología Agropecuaria
- OAI Identificador
- oai:localhost:20.500.12123/23378
Ver los metadatos del registro completo
id |
INTADig_a040d892159aceb608857446f05af9b0 |
---|---|
oai_identifier_str |
oai:localhost:20.500.12123/23378 |
network_acronym_str |
INTADig |
repository_id_str |
l |
network_name_str |
INTA Digital (INTA) |
spelling |
Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithmsRaschia, Maria AgustinaRios, Pablo JavierCordoba, Marcela ElisabetCaffaro, María EugeniaDonzelli, María ValeriaMaizon, Daniel OmarDemitrio, Daniel ArturoPoli, Mario AndresAlgoritmoAprendizaje AutomáticoPolimorfismo de Nucleótido ÚnicoGenotipadoAlgorithmsMachine LearningSingle Nucleotide PolymorphismsGenotypingInferencia de Genotipos FaltantesResumen. La imputación o inferencia de genotipos faltantes utilizando correlaciones entre variantes obtenidas a partir de paneles de referencia puede ser llevada a cabo por programas específicos basados en la utilización de información genética familiar y/o poblacional o mediante la implementación de algoritmos de machine learning. El objetivo de este trabajo fue evaluar la precisión en la imputación lograda mediante distintas estrategias de machine learning, tras comparar genotipos imputados con los obtenidos por genotipificación con un microarreglo de mediana densidad de SNPs. Sobre una base de datos con genotipos de 966 ovinos en 57.876 SNPs, con 53,4% de genotipos faltantes, se exploraron tres estrategias de imputación basadas en el algoritmo random forest. Un subconjunto de los genotipos imputados, correspondientes a 232 animales en 30.924 SNPs, fue comparado con genotipos obtenidos por genotipificación. El porcentaje de concordancia obtenido para las tres estrategias fue de alrededor de 60%. Este bajo porcentaje puede atribuirse a la gran cantidad de genotipos no asignados del archivo de partida. Una estrategia para aumentar la precisión de la imputación podría ser aumentar el número de animales en la población de referencia y, de este modo, reducir la proporción de genotipos faltantes en el conjunto de datos. Abstract. The imputation or inference of missing genotypes using correlations between variants obtained from reference panels can be carried out by specific programs that utilize family and/or population genetic information or by implementing machine learning algorithms. The objective of this study was to evaluate the imputation accuracy achieved using different machine learning strategies by comparing imputed genotypes with those obtained by genotyping with a medium-density SNP microarray. To compare the performance of three imputation strategies using the random forest algorithm, we analyzed a database containing 966 sheep genotyped at 57,876 SNPs, where 53.4% of the data was missing. A subset of the imputed genotypes, corresponding to 232 animals at 30,924 SNPs, was compared with genotypes obtained by genotyping. The percentage of concordance obtained for the three strategies was approximately 60%. This low percentage can be attributed to the large number of missing genotypes in the source file. One strategy for increasing imputation accuracy would be to increase the number of animals in the reference population and thus reduce the proportion of missing genotypes in the data set.Instituto de Investigación Genética, INTAFil: Raschia, Maria Agustina. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; ArgentinaFil: Rios, Pablo Javier. Universidad de Buenos Aires (UBA); ArgentinaFil: Rios, Pablo Javier. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; ArgentinaFil: Cordoba, Marcela Elisabet. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; ArgentinaFil: Caffaro, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; ArgentinaFil: Donzelli, María Valeria. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; ArgentinaFil: Donzelli, María Valeria. Facultad de Ciencias Agrarias. Universidad Nacional de Lomas de Zamora (UNLZ); ArgentinaFil: Maizon, Daniel Omar. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Anguil; ArgentinaFil: Maizon, Daniel Omar. Universidad Nacional de La Pampa (UNLP). Facultad de Agronomía; ArgentinaFil: Demitrio, Daniel Arturo. Instituto Nacional de Tecnología Agropecuaria (INTA). Coordinación Nacional de Relaciones Institucionales y Vinculación Tecnológica; ArgentinaFil: Demitrio, Daniel Arturo. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; ArgentinaFil: Poli, Mario Andres. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; ArgentinaFil: Poli, Mario Andres. Universidad del Salvador (USAL). Facultad de Ciencias Agrarias y Veterinarias; ArgentinaSociedad Argentina de Informática e Investigación Operativa (SADIO)2025-08-08T15:13:51Z2025-08-08T15:13:51Z2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://hdl.handle.net/20.500.12123/2337854 Jornadas Argentinas de Informática e Investigación Operativa (54 JAIIO) , 17 Congreso de AgroInformática (CAI 2025), Ciudad de Buenos Aires, 4 al 7 de agosto de 2025reponame:INTA Digital (INTA)instname:Instituto Nacional de Tecnología Agropecuariaspainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)2025-09-29T13:47:27Zoai:localhost:20.500.12123/23378instacron:INTAInstitucionalhttp://repositorio.inta.gob.ar/Organismo científico-tecnológicoNo correspondehttp://repositorio.inta.gob.ar/oai/requesttripaldi.nicolas@inta.gob.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:l2025-09-29 13:47:28.325INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuariafalse |
dc.title.none.fl_str_mv |
Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
title |
Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
spellingShingle |
Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms Raschia, Maria Agustina Algoritmo Aprendizaje Automático Polimorfismo de Nucleótido Único Genotipado Algorithms Machine Learning Single Nucleotide Polymorphisms Genotyping Inferencia de Genotipos Faltantes |
title_short |
Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
title_full |
Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
title_fullStr |
Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
title_full_unstemmed |
Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
title_sort |
Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
dc.creator.none.fl_str_mv |
Raschia, Maria Agustina Rios, Pablo Javier Cordoba, Marcela Elisabet Caffaro, María Eugenia Donzelli, María Valeria Maizon, Daniel Omar Demitrio, Daniel Arturo Poli, Mario Andres |
author |
Raschia, Maria Agustina |
author_facet |
Raschia, Maria Agustina Rios, Pablo Javier Cordoba, Marcela Elisabet Caffaro, María Eugenia Donzelli, María Valeria Maizon, Daniel Omar Demitrio, Daniel Arturo Poli, Mario Andres |
author_role |
author |
author2 |
Rios, Pablo Javier Cordoba, Marcela Elisabet Caffaro, María Eugenia Donzelli, María Valeria Maizon, Daniel Omar Demitrio, Daniel Arturo Poli, Mario Andres |
author2_role |
author author author author author author author |
dc.subject.none.fl_str_mv |
Algoritmo Aprendizaje Automático Polimorfismo de Nucleótido Único Genotipado Algorithms Machine Learning Single Nucleotide Polymorphisms Genotyping Inferencia de Genotipos Faltantes |
topic |
Algoritmo Aprendizaje Automático Polimorfismo de Nucleótido Único Genotipado Algorithms Machine Learning Single Nucleotide Polymorphisms Genotyping Inferencia de Genotipos Faltantes |
dc.description.none.fl_txt_mv |
Resumen. La imputación o inferencia de genotipos faltantes utilizando correlaciones entre variantes obtenidas a partir de paneles de referencia puede ser llevada a cabo por programas específicos basados en la utilización de información genética familiar y/o poblacional o mediante la implementación de algoritmos de machine learning. El objetivo de este trabajo fue evaluar la precisión en la imputación lograda mediante distintas estrategias de machine learning, tras comparar genotipos imputados con los obtenidos por genotipificación con un microarreglo de mediana densidad de SNPs. Sobre una base de datos con genotipos de 966 ovinos en 57.876 SNPs, con 53,4% de genotipos faltantes, se exploraron tres estrategias de imputación basadas en el algoritmo random forest. Un subconjunto de los genotipos imputados, correspondientes a 232 animales en 30.924 SNPs, fue comparado con genotipos obtenidos por genotipificación. El porcentaje de concordancia obtenido para las tres estrategias fue de alrededor de 60%. Este bajo porcentaje puede atribuirse a la gran cantidad de genotipos no asignados del archivo de partida. Una estrategia para aumentar la precisión de la imputación podría ser aumentar el número de animales en la población de referencia y, de este modo, reducir la proporción de genotipos faltantes en el conjunto de datos. Abstract. The imputation or inference of missing genotypes using correlations between variants obtained from reference panels can be carried out by specific programs that utilize family and/or population genetic information or by implementing machine learning algorithms. The objective of this study was to evaluate the imputation accuracy achieved using different machine learning strategies by comparing imputed genotypes with those obtained by genotyping with a medium-density SNP microarray. To compare the performance of three imputation strategies using the random forest algorithm, we analyzed a database containing 966 sheep genotyped at 57,876 SNPs, where 53.4% of the data was missing. A subset of the imputed genotypes, corresponding to 232 animals at 30,924 SNPs, was compared with genotypes obtained by genotyping. The percentage of concordance obtained for the three strategies was approximately 60%. This low percentage can be attributed to the large number of missing genotypes in the source file. One strategy for increasing imputation accuracy would be to increase the number of animals in the reference population and thus reduce the proportion of missing genotypes in the data set. Instituto de Investigación Genética, INTA Fil: Raschia, Maria Agustina. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Rios, Pablo Javier. Universidad de Buenos Aires (UBA); Argentina Fil: Rios, Pablo Javier. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; Argentina Fil: Cordoba, Marcela Elisabet. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Caffaro, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Donzelli, María Valeria. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Donzelli, María Valeria. Facultad de Ciencias Agrarias. Universidad Nacional de Lomas de Zamora (UNLZ); Argentina Fil: Maizon, Daniel Omar. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Anguil; Argentina Fil: Maizon, Daniel Omar. Universidad Nacional de La Pampa (UNLP). Facultad de Agronomía; Argentina Fil: Demitrio, Daniel Arturo. Instituto Nacional de Tecnología Agropecuaria (INTA). Coordinación Nacional de Relaciones Institucionales y Vinculación Tecnológica; Argentina Fil: Demitrio, Daniel Arturo. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; Argentina Fil: Poli, Mario Andres. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Poli, Mario Andres. Universidad del Salvador (USAL). Facultad de Ciencias Agrarias y Veterinarias; Argentina |
description |
Resumen. La imputación o inferencia de genotipos faltantes utilizando correlaciones entre variantes obtenidas a partir de paneles de referencia puede ser llevada a cabo por programas específicos basados en la utilización de información genética familiar y/o poblacional o mediante la implementación de algoritmos de machine learning. El objetivo de este trabajo fue evaluar la precisión en la imputación lograda mediante distintas estrategias de machine learning, tras comparar genotipos imputados con los obtenidos por genotipificación con un microarreglo de mediana densidad de SNPs. Sobre una base de datos con genotipos de 966 ovinos en 57.876 SNPs, con 53,4% de genotipos faltantes, se exploraron tres estrategias de imputación basadas en el algoritmo random forest. Un subconjunto de los genotipos imputados, correspondientes a 232 animales en 30.924 SNPs, fue comparado con genotipos obtenidos por genotipificación. El porcentaje de concordancia obtenido para las tres estrategias fue de alrededor de 60%. Este bajo porcentaje puede atribuirse a la gran cantidad de genotipos no asignados del archivo de partida. Una estrategia para aumentar la precisión de la imputación podría ser aumentar el número de animales en la población de referencia y, de este modo, reducir la proporción de genotipos faltantes en el conjunto de datos. Abstract. The imputation or inference of missing genotypes using correlations between variants obtained from reference panels can be carried out by specific programs that utilize family and/or population genetic information or by implementing machine learning algorithms. The objective of this study was to evaluate the imputation accuracy achieved using different machine learning strategies by comparing imputed genotypes with those obtained by genotyping with a medium-density SNP microarray. To compare the performance of three imputation strategies using the random forest algorithm, we analyzed a database containing 966 sheep genotyped at 57,876 SNPs, where 53.4% of the data was missing. A subset of the imputed genotypes, corresponding to 232 animals at 30,924 SNPs, was compared with genotypes obtained by genotyping. The percentage of concordance obtained for the three strategies was approximately 60%. This low percentage can be attributed to the large number of missing genotypes in the source file. One strategy for increasing imputation accuracy would be to increase the number of animals in the reference population and thus reduce the proportion of missing genotypes in the data set. |
publishDate |
2025 |
dc.date.none.fl_str_mv |
2025-08-08T15:13:51Z 2025-08-08T15:13:51Z 2025-08 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
format |
conferenceObject |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://hdl.handle.net/20.500.12123/23378 |
url |
http://hdl.handle.net/20.500.12123/23378 |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Sociedad Argentina de Informática e Investigación Operativa (SADIO) |
publisher.none.fl_str_mv |
Sociedad Argentina de Informática e Investigación Operativa (SADIO) |
dc.source.none.fl_str_mv |
54 Jornadas Argentinas de Informática e Investigación Operativa (54 JAIIO) , 17 Congreso de AgroInformática (CAI 2025), Ciudad de Buenos Aires, 4 al 7 de agosto de 2025 reponame:INTA Digital (INTA) instname:Instituto Nacional de Tecnología Agropecuaria |
reponame_str |
INTA Digital (INTA) |
collection |
INTA Digital (INTA) |
instname_str |
Instituto Nacional de Tecnología Agropecuaria |
repository.name.fl_str_mv |
INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuaria |
repository.mail.fl_str_mv |
tripaldi.nicolas@inta.gob.ar |
_version_ |
1844619207781646336 |
score |
12.559606 |