Imputación de genotipos faltantes en datos de secuenciación masiva

Autores
Merino, Gabriela Alejandra
Año de publicación
2018
Idioma
español castellano
Tipo de recurso
tesis de maestría
Estado
versión publicada
Colaborador/a o director/a de tesis
Di Rienzo, Julio Alejandro
Paniego, Norma
Descripción
Tesis (Maestría en Estadística Aplicada) -- Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina, 2018.
Fil: Merino, Gabriela Alejandra. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina.
Las estrategias de genotipi cación masiva de poblaciones de mejoramiento mediante secuenciación de alto rendimiento son cada vez más utilizadas en el ámbito de las ciencias agrarias. Tales estrategias favorecen la exploración de la diversidad genética propia de una población, aunque, generan matrices de genotipado con un alto porcentaje de datos faltantes. Para resolver esta limitante se recurre a la predicción de los genotipos faltantes mediante la implementación de técnicas estadísticas. No obstante, la mayoría de éstas han sido desarrolladas para trabajar con especies como maíz o soja que disponen de genomas de referencia de alta calidad y matrices de genotipado completo, lo que aporta información valiosa para la imputación. Sin embargo, la mayoría de los cultivos no se encuentra en esta situación en términos de información útil disponible. Esta tesis tiene como objetivo aportar soluciones al problema de imputación en matrices de genotipado obtenidas mediante secuenciación de especies poco estudiadas. Aquí se propuso diseñar una estrategia de imputación basada en la combinación de técnicas estadísticas y evidencias genéticas. Dado que la matriz de trabajo contiene muchos más genotipos incompletos que individuos genotipados, se seleccionó la metodología Random Forest para la predicción y posterior imputación de los genotipos faltantes. Adicionalmente, se conoce que las variantes genotípicas, en este caso polimorfi smos de nucleótido único (SNPs), están correlacionadas desde el punto de vista genético (grupos de ligamiento) y/o genómico (pseudo-moléculas de ADN), por lo que se incorporó tal información con el n de obtener resultados más precisos. En base a estos principios, se diseñaron seis alternativas de imputación y se establecieron cuatro métricas de desempeño (exactitud, F-score, sensibilidad y precisión) para su evaluación y comparación. Los algoritmos propuestos inicialmente se ensayaron usando datos simulados y los resultados obtenidos fueron contrastados con los conseguidos al utilizar estrategias de imputación de uso frecuente, según la literatura, sobre las mismas matrices simuladas. De los seis métodos desarrollados, se encontró que el algoritmo RFCorOOBLD que considera la correlación entre un SNP incompleto y los SNPs completos del mismo grupo de ligamiento, y un umbral de error de predicción (OOB), fue la que logró el mejor desempeño. Si bien las estrategias que no consideran el error OOB permitieron recuperar más SNPs incompletos, RFCorOOBLD fue superior a todas las alternativas propuestas en términos de sensibilidad y precisión. Se analizó además el impacto de la modi ficación del umbral del error OOB sobre el desempeño de las estrategias evaluadas, observándose que un umbral de 0,2 permite obtener un óptimo entre el porcentaje de SNPs imputados y el máximo error de estimación admitido. Se encontró además que la metodología RFCorOOBLD fue la más robusta ante las variaciones en el porcentaje de genotipos faltantes en la matriz inicial, observándose también que es la que mejor desempeño ofrece en matrices con valores superiores al 20% de datos faltantes. En cuanto al desempeño como función del porcentaje de SNPs completos, esta metodología fue una de las que más incrementó sus medidas como consecuencia del aumento de datos completos. Se demostró además que la metodología desarrollada resultó superior en desempeño respecto de otras metodologías disponibles y comúnmente utilizadas para la imputación de genotipos faltantes, como son la imputación por la moda, Beagle y LinkImputeR. Adicionalmente, las medidas de desempeño de las estrategias aquí propuestas fueron más robustas con respecto al porcentaje de datos faltantes que las correspondientes a las tres metodologías alternativas contrastadas. Los algoritmos desarrollados que tuvieron los mejores desempeños se aplicaron además a un estudio real basado en una matriz de datos incompletos generada mediante genotipi ficación por secuenciación de una población de asociación de girasol, llevada a cabo por el Instituto Nacional de Tecnología Agropecuaria. En este caso, la estrategia RFCorOOBLD permitió recuperar miles de SNPs incompletos, logrando conservar más del 75% de todos los SNPs de la matriz de genotipado luego de la imputación. Por lo expuesto, se concluye que la metodología aquí presentada representa un aporte importante al problema de imputación de genotipos faltantes en matrices de genotipificación por secuenciación de individuos no relacionados o poco relacionados genéticamente.
Fil: Merino, Gabriela Alejandra. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina.
Materia
Genómica estadística
Genotipado por secuenciación
Imputación
SNP
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Repositorio
Repositorio Digital Universitario (UNC)
Institución
Universidad Nacional de Córdoba
OAI Identificador
oai:rdu.unc.edu.ar:11086/6569

id RDUUNC_8aefee39910be5d01cf5020db16c4b70
oai_identifier_str oai:rdu.unc.edu.ar:11086/6569
network_acronym_str RDUUNC
repository_id_str 2572
network_name_str Repositorio Digital Universitario (UNC)
spelling Imputación de genotipos faltantes en datos de secuenciación masivaMerino, Gabriela AlejandraGenómica estadísticaGenotipado por secuenciaciónImputaciónSNPTesis (Maestría en Estadística Aplicada) -- Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina, 2018.Fil: Merino, Gabriela Alejandra. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina.Las estrategias de genotipi cación masiva de poblaciones de mejoramiento mediante secuenciación de alto rendimiento son cada vez más utilizadas en el ámbito de las ciencias agrarias. Tales estrategias favorecen la exploración de la diversidad genética propia de una población, aunque, generan matrices de genotipado con un alto porcentaje de datos faltantes. Para resolver esta limitante se recurre a la predicción de los genotipos faltantes mediante la implementación de técnicas estadísticas. No obstante, la mayoría de éstas han sido desarrolladas para trabajar con especies como maíz o soja que disponen de genomas de referencia de alta calidad y matrices de genotipado completo, lo que aporta información valiosa para la imputación. Sin embargo, la mayoría de los cultivos no se encuentra en esta situación en términos de información útil disponible. Esta tesis tiene como objetivo aportar soluciones al problema de imputación en matrices de genotipado obtenidas mediante secuenciación de especies poco estudiadas. Aquí se propuso diseñar una estrategia de imputación basada en la combinación de técnicas estadísticas y evidencias genéticas. Dado que la matriz de trabajo contiene muchos más genotipos incompletos que individuos genotipados, se seleccionó la metodología Random Forest para la predicción y posterior imputación de los genotipos faltantes. Adicionalmente, se conoce que las variantes genotípicas, en este caso polimorfi smos de nucleótido único (SNPs), están correlacionadas desde el punto de vista genético (grupos de ligamiento) y/o genómico (pseudo-moléculas de ADN), por lo que se incorporó tal información con el n de obtener resultados más precisos. En base a estos principios, se diseñaron seis alternativas de imputación y se establecieron cuatro métricas de desempeño (exactitud, F-score, sensibilidad y precisión) para su evaluación y comparación. Los algoritmos propuestos inicialmente se ensayaron usando datos simulados y los resultados obtenidos fueron contrastados con los conseguidos al utilizar estrategias de imputación de uso frecuente, según la literatura, sobre las mismas matrices simuladas. De los seis métodos desarrollados, se encontró que el algoritmo RFCorOOBLD que considera la correlación entre un SNP incompleto y los SNPs completos del mismo grupo de ligamiento, y un umbral de error de predicción (OOB), fue la que logró el mejor desempeño. Si bien las estrategias que no consideran el error OOB permitieron recuperar más SNPs incompletos, RFCorOOBLD fue superior a todas las alternativas propuestas en términos de sensibilidad y precisión. Se analizó además el impacto de la modi ficación del umbral del error OOB sobre el desempeño de las estrategias evaluadas, observándose que un umbral de 0,2 permite obtener un óptimo entre el porcentaje de SNPs imputados y el máximo error de estimación admitido. Se encontró además que la metodología RFCorOOBLD fue la más robusta ante las variaciones en el porcentaje de genotipos faltantes en la matriz inicial, observándose también que es la que mejor desempeño ofrece en matrices con valores superiores al 20% de datos faltantes. En cuanto al desempeño como función del porcentaje de SNPs completos, esta metodología fue una de las que más incrementó sus medidas como consecuencia del aumento de datos completos. Se demostró además que la metodología desarrollada resultó superior en desempeño respecto de otras metodologías disponibles y comúnmente utilizadas para la imputación de genotipos faltantes, como son la imputación por la moda, Beagle y LinkImputeR. Adicionalmente, las medidas de desempeño de las estrategias aquí propuestas fueron más robustas con respecto al porcentaje de datos faltantes que las correspondientes a las tres metodologías alternativas contrastadas. Los algoritmos desarrollados que tuvieron los mejores desempeños se aplicaron además a un estudio real basado en una matriz de datos incompletos generada mediante genotipi ficación por secuenciación de una población de asociación de girasol, llevada a cabo por el Instituto Nacional de Tecnología Agropecuaria. En este caso, la estrategia RFCorOOBLD permitió recuperar miles de SNPs incompletos, logrando conservar más del 75% de todos los SNPs de la matriz de genotipado luego de la imputación. Por lo expuesto, se concluye que la metodología aquí presentada representa un aporte importante al problema de imputación de genotipos faltantes en matrices de genotipificación por secuenciación de individuos no relacionados o poco relacionados genéticamente.Fil: Merino, Gabriela Alejandra. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina.Di Rienzo, Julio AlejandroPaniego, Norma2018info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttp://hdl.handle.net/11086/6569spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2025-09-29T13:42:10Zoai:rdu.unc.edu.ar:11086/6569Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722025-09-29 13:42:10.33Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv Imputación de genotipos faltantes en datos de secuenciación masiva
title Imputación de genotipos faltantes en datos de secuenciación masiva
spellingShingle Imputación de genotipos faltantes en datos de secuenciación masiva
Merino, Gabriela Alejandra
Genómica estadística
Genotipado por secuenciación
Imputación
SNP
title_short Imputación de genotipos faltantes en datos de secuenciación masiva
title_full Imputación de genotipos faltantes en datos de secuenciación masiva
title_fullStr Imputación de genotipos faltantes en datos de secuenciación masiva
title_full_unstemmed Imputación de genotipos faltantes en datos de secuenciación masiva
title_sort Imputación de genotipos faltantes en datos de secuenciación masiva
dc.creator.none.fl_str_mv Merino, Gabriela Alejandra
author Merino, Gabriela Alejandra
author_facet Merino, Gabriela Alejandra
author_role author
dc.contributor.none.fl_str_mv Di Rienzo, Julio Alejandro
Paniego, Norma
dc.subject.none.fl_str_mv Genómica estadística
Genotipado por secuenciación
Imputación
SNP
topic Genómica estadística
Genotipado por secuenciación
Imputación
SNP
dc.description.none.fl_txt_mv Tesis (Maestría en Estadística Aplicada) -- Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina, 2018.
Fil: Merino, Gabriela Alejandra. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina.
Las estrategias de genotipi cación masiva de poblaciones de mejoramiento mediante secuenciación de alto rendimiento son cada vez más utilizadas en el ámbito de las ciencias agrarias. Tales estrategias favorecen la exploración de la diversidad genética propia de una población, aunque, generan matrices de genotipado con un alto porcentaje de datos faltantes. Para resolver esta limitante se recurre a la predicción de los genotipos faltantes mediante la implementación de técnicas estadísticas. No obstante, la mayoría de éstas han sido desarrolladas para trabajar con especies como maíz o soja que disponen de genomas de referencia de alta calidad y matrices de genotipado completo, lo que aporta información valiosa para la imputación. Sin embargo, la mayoría de los cultivos no se encuentra en esta situación en términos de información útil disponible. Esta tesis tiene como objetivo aportar soluciones al problema de imputación en matrices de genotipado obtenidas mediante secuenciación de especies poco estudiadas. Aquí se propuso diseñar una estrategia de imputación basada en la combinación de técnicas estadísticas y evidencias genéticas. Dado que la matriz de trabajo contiene muchos más genotipos incompletos que individuos genotipados, se seleccionó la metodología Random Forest para la predicción y posterior imputación de los genotipos faltantes. Adicionalmente, se conoce que las variantes genotípicas, en este caso polimorfi smos de nucleótido único (SNPs), están correlacionadas desde el punto de vista genético (grupos de ligamiento) y/o genómico (pseudo-moléculas de ADN), por lo que se incorporó tal información con el n de obtener resultados más precisos. En base a estos principios, se diseñaron seis alternativas de imputación y se establecieron cuatro métricas de desempeño (exactitud, F-score, sensibilidad y precisión) para su evaluación y comparación. Los algoritmos propuestos inicialmente se ensayaron usando datos simulados y los resultados obtenidos fueron contrastados con los conseguidos al utilizar estrategias de imputación de uso frecuente, según la literatura, sobre las mismas matrices simuladas. De los seis métodos desarrollados, se encontró que el algoritmo RFCorOOBLD que considera la correlación entre un SNP incompleto y los SNPs completos del mismo grupo de ligamiento, y un umbral de error de predicción (OOB), fue la que logró el mejor desempeño. Si bien las estrategias que no consideran el error OOB permitieron recuperar más SNPs incompletos, RFCorOOBLD fue superior a todas las alternativas propuestas en términos de sensibilidad y precisión. Se analizó además el impacto de la modi ficación del umbral del error OOB sobre el desempeño de las estrategias evaluadas, observándose que un umbral de 0,2 permite obtener un óptimo entre el porcentaje de SNPs imputados y el máximo error de estimación admitido. Se encontró además que la metodología RFCorOOBLD fue la más robusta ante las variaciones en el porcentaje de genotipos faltantes en la matriz inicial, observándose también que es la que mejor desempeño ofrece en matrices con valores superiores al 20% de datos faltantes. En cuanto al desempeño como función del porcentaje de SNPs completos, esta metodología fue una de las que más incrementó sus medidas como consecuencia del aumento de datos completos. Se demostró además que la metodología desarrollada resultó superior en desempeño respecto de otras metodologías disponibles y comúnmente utilizadas para la imputación de genotipos faltantes, como son la imputación por la moda, Beagle y LinkImputeR. Adicionalmente, las medidas de desempeño de las estrategias aquí propuestas fueron más robustas con respecto al porcentaje de datos faltantes que las correspondientes a las tres metodologías alternativas contrastadas. Los algoritmos desarrollados que tuvieron los mejores desempeños se aplicaron además a un estudio real basado en una matriz de datos incompletos generada mediante genotipi ficación por secuenciación de una población de asociación de girasol, llevada a cabo por el Instituto Nacional de Tecnología Agropecuaria. En este caso, la estrategia RFCorOOBLD permitió recuperar miles de SNPs incompletos, logrando conservar más del 75% de todos los SNPs de la matriz de genotipado luego de la imputación. Por lo expuesto, se concluye que la metodología aquí presentada representa un aporte importante al problema de imputación de genotipos faltantes en matrices de genotipificación por secuenciación de individuos no relacionados o poco relacionados genéticamente.
Fil: Merino, Gabriela Alejandra. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina.
description Tesis (Maestría en Estadística Aplicada) -- Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina, 2018.
publishDate 2018
dc.date.none.fl_str_mv 2018
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_bdcc
info:ar-repo/semantics/tesisDeMaestria
format masterThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11086/6569
url http://hdl.handle.net/11086/6569
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositorio Digital Universitario (UNC)
instname:Universidad Nacional de Córdoba
instacron:UNC
reponame_str Repositorio Digital Universitario (UNC)
collection Repositorio Digital Universitario (UNC)
instname_str Universidad Nacional de Córdoba
instacron_str UNC
institution UNC
repository.name.fl_str_mv Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv oca.unc@gmail.com
_version_ 1844618919970603008
score 13.070432