Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseq

Autores
Sánchez, Kevin Imanol; Avila, Luciano J.; Sites Jr., J. W.; Leaché, A.D.; Morando, Mariana
Año de publicación
2020
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
La secuenciación de fragmentos de ADN asociado a fragmentos de restricción (RADseq) está siendo cada vez más empleada en estudios poblacionales y filogenéticos puesto que permite la obtención de cientos a miles de loci, lo que es ventajoso en situaciones en donde los marcadores tradicionalmente empleados arrojan resultados ambiguos. Sin embargo, la robustez de las inferencias realizadas depende de un cuidadoso procesamiento bioinformático de los datos (ej. remoción de regiones parálogas). Un desafío metodológico clave es determinar el porcentaje de similitud a partir del cual dos alelos son considerados homólogos y por ende son agrupados en el mismo locus (umbral de similitud). Este umbral define la divergencia máxima permitida entre variantes alélicas y la divergencia mínima entre posibles parálogos, y por ende es central para los análisis posteriores. En este trabajo pusimos a prueba un conjunto de métricas para determinar los umbrales de similitud entre secuencias que maximizan la remoción correcta de regiones parálogas, y minimizan la separación incorrecta de variantes alélicas distantes en diferentes loci. Para ello se ensamblaron loci empleando diferentes valores de este parámetro y se observaran atributos tales como: número de regiones parálogas identificadas, número de SNPs recuperados, proporción de heterocigosis, variabilidad explicada, correlación entre divergencia genética y falta de datos y resolución filogenética. Probamos este enfoque en un conjunto de datos genómicos de lagartijas del grupo Liolaemus kingii obtenidos mediante ddRADseq. Las métricas infieren un patrón de aproximadamente 90% de similitud entre alelos del mismo loci, como un umbral por encima del cual la divergencia genética y la falta de datos se correlacionan de manera creciente. Este protocolo posibilita una selección objetiva de parámetros, a la vez que es aplicable a cualquier sistema biológico tanto modelo como no modelo (cuando no se dispone de un genoma de referencia
Fil: Sánchez, Kevin Imanol. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico para el Estudio de los Ecosistemas Continentales; Argentina
Fil: Avila, Luciano J.. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico para el Estudio de los Ecosistemas Continentales; Argentina
Fil: Sites Jr., J. W.. University Brigham Young; Estados Unidos
Fil: Leaché, A.D.. University of Washington; Estados Unidos
Fil: Morando, Mariana. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico para el Estudio de los Ecosistemas Continentales; Argentina
9na Jornada de Becarios y 1er Encuentro Patagónico de Becarios
Puerto Madryn
Argentina
Centro Nacional Patagónico
Materia
UMBRAL DE SIMILITUD
ddRADseq
BIOINFORMATICA
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/154053

id CONICETDig_8f43883e51c6785bb7fe3f146d6b0e86
oai_identifier_str oai:ri.conicet.gov.ar:11336/154053
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseqSánchez, Kevin ImanolAvila, Luciano J.Sites Jr., J. W.Leaché, A.D.Morando, MarianaUMBRAL DE SIMILITUDddRADseqBIOINFORMATICAhttps://purl.org/becyt/ford/1.6https://purl.org/becyt/ford/1La secuenciación de fragmentos de ADN asociado a fragmentos de restricción (RADseq) está siendo cada vez más empleada en estudios poblacionales y filogenéticos puesto que permite la obtención de cientos a miles de loci, lo que es ventajoso en situaciones en donde los marcadores tradicionalmente empleados arrojan resultados ambiguos. Sin embargo, la robustez de las inferencias realizadas depende de un cuidadoso procesamiento bioinformático de los datos (ej. remoción de regiones parálogas). Un desafío metodológico clave es determinar el porcentaje de similitud a partir del cual dos alelos son considerados homólogos y por ende son agrupados en el mismo locus (umbral de similitud). Este umbral define la divergencia máxima permitida entre variantes alélicas y la divergencia mínima entre posibles parálogos, y por ende es central para los análisis posteriores. En este trabajo pusimos a prueba un conjunto de métricas para determinar los umbrales de similitud entre secuencias que maximizan la remoción correcta de regiones parálogas, y minimizan la separación incorrecta de variantes alélicas distantes en diferentes loci. Para ello se ensamblaron loci empleando diferentes valores de este parámetro y se observaran atributos tales como: número de regiones parálogas identificadas, número de SNPs recuperados, proporción de heterocigosis, variabilidad explicada, correlación entre divergencia genética y falta de datos y resolución filogenética. Probamos este enfoque en un conjunto de datos genómicos de lagartijas del grupo Liolaemus kingii obtenidos mediante ddRADseq. Las métricas infieren un patrón de aproximadamente 90% de similitud entre alelos del mismo loci, como un umbral por encima del cual la divergencia genética y la falta de datos se correlacionan de manera creciente. Este protocolo posibilita una selección objetiva de parámetros, a la vez que es aplicable a cualquier sistema biológico tanto modelo como no modelo (cuando no se dispone de un genoma de referenciaFil: Sánchez, Kevin Imanol. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico para el Estudio de los Ecosistemas Continentales; ArgentinaFil: Avila, Luciano J.. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico para el Estudio de los Ecosistemas Continentales; ArgentinaFil: Sites Jr., J. W.. University Brigham Young; Estados UnidosFil: Leaché, A.D.. University of Washington; Estados UnidosFil: Morando, Mariana. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico para el Estudio de los Ecosistemas Continentales; Argentina9na Jornada de Becarios y 1er Encuentro Patagónico de BecariosPuerto MadrynArgentinaCentro Nacional PatagónicoCentro Nacional Patagónico2020info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/conferenceObjectJornadaJournalhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/154053Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseq; 9na Jornada de Becarios y 1er Encuentro Patagónico de Becarios; Puerto Madryn; Argentina; 2019; 1-122545-8493CONICET DigitalCONICETspainfo:eu-repo/semantics/altIdentifier/url/http://www.repositorio.cenpat-conicet.gob.ar/bitstream/handle/123456789/1253/Libro%20resumen%20JORbec_EPB_2019.pdf?sequence=2&isAllowed=yNacionalinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-10T13:10:42Zoai:ri.conicet.gov.ar:11336/154053instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-10 13:10:42.656CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseq
title Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseq
spellingShingle Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseq
Sánchez, Kevin Imanol
UMBRAL DE SIMILITUD
ddRADseq
BIOINFORMATICA
title_short Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseq
title_full Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseq
title_fullStr Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseq
title_full_unstemmed Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseq
title_sort Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseq
dc.creator.none.fl_str_mv Sánchez, Kevin Imanol
Avila, Luciano J.
Sites Jr., J. W.
Leaché, A.D.
Morando, Mariana
author Sánchez, Kevin Imanol
author_facet Sánchez, Kevin Imanol
Avila, Luciano J.
Sites Jr., J. W.
Leaché, A.D.
Morando, Mariana
author_role author
author2 Avila, Luciano J.
Sites Jr., J. W.
Leaché, A.D.
Morando, Mariana
author2_role author
author
author
author
dc.subject.none.fl_str_mv UMBRAL DE SIMILITUD
ddRADseq
BIOINFORMATICA
topic UMBRAL DE SIMILITUD
ddRADseq
BIOINFORMATICA
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.6
https://purl.org/becyt/ford/1
dc.description.none.fl_txt_mv La secuenciación de fragmentos de ADN asociado a fragmentos de restricción (RADseq) está siendo cada vez más empleada en estudios poblacionales y filogenéticos puesto que permite la obtención de cientos a miles de loci, lo que es ventajoso en situaciones en donde los marcadores tradicionalmente empleados arrojan resultados ambiguos. Sin embargo, la robustez de las inferencias realizadas depende de un cuidadoso procesamiento bioinformático de los datos (ej. remoción de regiones parálogas). Un desafío metodológico clave es determinar el porcentaje de similitud a partir del cual dos alelos son considerados homólogos y por ende son agrupados en el mismo locus (umbral de similitud). Este umbral define la divergencia máxima permitida entre variantes alélicas y la divergencia mínima entre posibles parálogos, y por ende es central para los análisis posteriores. En este trabajo pusimos a prueba un conjunto de métricas para determinar los umbrales de similitud entre secuencias que maximizan la remoción correcta de regiones parálogas, y minimizan la separación incorrecta de variantes alélicas distantes en diferentes loci. Para ello se ensamblaron loci empleando diferentes valores de este parámetro y se observaran atributos tales como: número de regiones parálogas identificadas, número de SNPs recuperados, proporción de heterocigosis, variabilidad explicada, correlación entre divergencia genética y falta de datos y resolución filogenética. Probamos este enfoque en un conjunto de datos genómicos de lagartijas del grupo Liolaemus kingii obtenidos mediante ddRADseq. Las métricas infieren un patrón de aproximadamente 90% de similitud entre alelos del mismo loci, como un umbral por encima del cual la divergencia genética y la falta de datos se correlacionan de manera creciente. Este protocolo posibilita una selección objetiva de parámetros, a la vez que es aplicable a cualquier sistema biológico tanto modelo como no modelo (cuando no se dispone de un genoma de referencia
Fil: Sánchez, Kevin Imanol. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico para el Estudio de los Ecosistemas Continentales; Argentina
Fil: Avila, Luciano J.. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico para el Estudio de los Ecosistemas Continentales; Argentina
Fil: Sites Jr., J. W.. University Brigham Young; Estados Unidos
Fil: Leaché, A.D.. University of Washington; Estados Unidos
Fil: Morando, Mariana. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Instituto Patagónico para el Estudio de los Ecosistemas Continentales; Argentina
9na Jornada de Becarios y 1er Encuentro Patagónico de Becarios
Puerto Madryn
Argentina
Centro Nacional Patagónico
description La secuenciación de fragmentos de ADN asociado a fragmentos de restricción (RADseq) está siendo cada vez más empleada en estudios poblacionales y filogenéticos puesto que permite la obtención de cientos a miles de loci, lo que es ventajoso en situaciones en donde los marcadores tradicionalmente empleados arrojan resultados ambiguos. Sin embargo, la robustez de las inferencias realizadas depende de un cuidadoso procesamiento bioinformático de los datos (ej. remoción de regiones parálogas). Un desafío metodológico clave es determinar el porcentaje de similitud a partir del cual dos alelos son considerados homólogos y por ende son agrupados en el mismo locus (umbral de similitud). Este umbral define la divergencia máxima permitida entre variantes alélicas y la divergencia mínima entre posibles parálogos, y por ende es central para los análisis posteriores. En este trabajo pusimos a prueba un conjunto de métricas para determinar los umbrales de similitud entre secuencias que maximizan la remoción correcta de regiones parálogas, y minimizan la separación incorrecta de variantes alélicas distantes en diferentes loci. Para ello se ensamblaron loci empleando diferentes valores de este parámetro y se observaran atributos tales como: número de regiones parálogas identificadas, número de SNPs recuperados, proporción de heterocigosis, variabilidad explicada, correlación entre divergencia genética y falta de datos y resolución filogenética. Probamos este enfoque en un conjunto de datos genómicos de lagartijas del grupo Liolaemus kingii obtenidos mediante ddRADseq. Las métricas infieren un patrón de aproximadamente 90% de similitud entre alelos del mismo loci, como un umbral por encima del cual la divergencia genética y la falta de datos se correlacionan de manera creciente. Este protocolo posibilita una selección objetiva de parámetros, a la vez que es aplicable a cualquier sistema biológico tanto modelo como no modelo (cuando no se dispone de un genoma de referencia
publishDate 2020
dc.date.none.fl_str_mv 2020
dc.type.none.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/conferenceObject
Jornada
Journal
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
status_str publishedVersion
format conferenceObject
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/154053
Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseq; 9na Jornada de Becarios y 1er Encuentro Patagónico de Becarios; Puerto Madryn; Argentina; 2019; 1-12
2545-8493
CONICET Digital
CONICET
url http://hdl.handle.net/11336/154053
identifier_str_mv Evaluación empírica de un protocolo para el ensamble de datos genómicos obtenidos mediante ddRADseq; 9na Jornada de Becarios y 1er Encuentro Patagónico de Becarios; Puerto Madryn; Argentina; 2019; 1-12
2545-8493
CONICET Digital
CONICET
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/http://www.repositorio.cenpat-conicet.gob.ar/bitstream/handle/123456789/1253/Libro%20resumen%20JORbec_EPB_2019.pdf?sequence=2&isAllowed=y
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
application/pdf
dc.coverage.none.fl_str_mv Nacional
dc.publisher.none.fl_str_mv Centro Nacional Patagónico
publisher.none.fl_str_mv Centro Nacional Patagónico
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1842980541251452928
score 12.993085