Repeticiones maximales para la estimación de la diversidad en metagenomas

Autores
Tanenzapf, Maia
Año de publicación
2020
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Lanzarotti, Esteban Omar
Turjanski, Pablo Guillermo
Descripción
Los avances en las tecnologías de secuenciación de ADN producidos en la última década permitieron generar grandes cantidades de datos nuevos para analizar. A partir de esto, aplicaciones como la metagenómica tomaron relevancia. Esta consiste en analizar el ADN de los diferentes microorganismos que componen una comunidad a partir de muestras provenientes de distintas fuentes, por ejemplo, de estudios ambientales de suelo o de análisis clínicos de sangre. Las limitaciones actuales de las tecnologías de secuenciación no permiten obtener los genomas completos de los microorganismos presentes en estas muestras, es por esto que uno de los desafíos que se presenta en la actualidad es poder determinar las especies que componen un metagenoma a partir de sus lecturas. En este trabajo buscamos un método para la estimación de la diversidad de metagenomas de bacterias a partir del cálculo de intervalos maximales de repetición. Para esto utilizamos una adaptación del algoritmo propuesto por Ilie et al. para el cálculo de estos intervalos y analizamos la relación entre distintas propiedades de los mismos y la cantidad de genomas utilizando metagenomas simulados. A partir de este análisis formulamos un modelo que, utilizando los intervalos de repeticiones maximales de un metagenoma, permite estimar la cantidad de genomas que lo integran. Evaluamos nuestro método en metagenomas simulados a partir de genomas de bacterias conocidos obteniendo una buena estimación de la cantidad de genomas que lo componen. Adicionalmente utilizamos un conjunto de metagenomas de virus generado en el trabajo de Roux et al. de manera de proveer una validación independiente de los datos usados para obtener el modelo. En este caso obtuvimos un error de escala muy alto al estimar la diversidad, pudiendo deberse a que los datos utilizados fueron generados a partir de virus mientras que nuestro modelo utilizó bacterias o a que en el trabajo de Roux se utilizan entre 500 y 1000 virus mientras que nosotros utilizamos solamente 40 bacterias. Sin embargo, si encontramos cierta correlación al utilizar nuestro método para ordenar los metagenomas según la cantidad de genomas.
Fil: Tanenzapf, Maia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
METAGENOMAS
DIVERSIDAD
REPETICIONES MAXIMALES
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000581_Tanenzapf

id BDUBAFCEN_c82642c58a519c70f4d69979a165767e
oai_identifier_str seminario:seminario_nCOM000581_Tanenzapf
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Repeticiones maximales para la estimación de la diversidad en metagenomasTanenzapf, MaiaMETAGENOMASDIVERSIDADREPETICIONES MAXIMALESLos avances en las tecnologías de secuenciación de ADN producidos en la última década permitieron generar grandes cantidades de datos nuevos para analizar. A partir de esto, aplicaciones como la metagenómica tomaron relevancia. Esta consiste en analizar el ADN de los diferentes microorganismos que componen una comunidad a partir de muestras provenientes de distintas fuentes, por ejemplo, de estudios ambientales de suelo o de análisis clínicos de sangre. Las limitaciones actuales de las tecnologías de secuenciación no permiten obtener los genomas completos de los microorganismos presentes en estas muestras, es por esto que uno de los desafíos que se presenta en la actualidad es poder determinar las especies que componen un metagenoma a partir de sus lecturas. En este trabajo buscamos un método para la estimación de la diversidad de metagenomas de bacterias a partir del cálculo de intervalos maximales de repetición. Para esto utilizamos una adaptación del algoritmo propuesto por Ilie et al. para el cálculo de estos intervalos y analizamos la relación entre distintas propiedades de los mismos y la cantidad de genomas utilizando metagenomas simulados. A partir de este análisis formulamos un modelo que, utilizando los intervalos de repeticiones maximales de un metagenoma, permite estimar la cantidad de genomas que lo integran. Evaluamos nuestro método en metagenomas simulados a partir de genomas de bacterias conocidos obteniendo una buena estimación de la cantidad de genomas que lo componen. Adicionalmente utilizamos un conjunto de metagenomas de virus generado en el trabajo de Roux et al. de manera de proveer una validación independiente de los datos usados para obtener el modelo. En este caso obtuvimos un error de escala muy alto al estimar la diversidad, pudiendo deberse a que los datos utilizados fueron generados a partir de virus mientras que nuestro modelo utilizó bacterias o a que en el trabajo de Roux se utilizan entre 500 y 1000 virus mientras que nosotros utilizamos solamente 40 bacterias. Sin embargo, si encontramos cierta correlación al utilizar nuestro método para ordenar los metagenomas según la cantidad de genomas.Fil: Tanenzapf, Maia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesLanzarotti, Esteban OmarTurjanski, Pablo Guillermo2020info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000581_Tanenzapfspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-11T10:22:29Zseminario:seminario_nCOM000581_TanenzapfInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-11 10:22:30.996Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Repeticiones maximales para la estimación de la diversidad en metagenomas
title Repeticiones maximales para la estimación de la diversidad en metagenomas
spellingShingle Repeticiones maximales para la estimación de la diversidad en metagenomas
Tanenzapf, Maia
METAGENOMAS
DIVERSIDAD
REPETICIONES MAXIMALES
title_short Repeticiones maximales para la estimación de la diversidad en metagenomas
title_full Repeticiones maximales para la estimación de la diversidad en metagenomas
title_fullStr Repeticiones maximales para la estimación de la diversidad en metagenomas
title_full_unstemmed Repeticiones maximales para la estimación de la diversidad en metagenomas
title_sort Repeticiones maximales para la estimación de la diversidad en metagenomas
dc.creator.none.fl_str_mv Tanenzapf, Maia
author Tanenzapf, Maia
author_facet Tanenzapf, Maia
author_role author
dc.contributor.none.fl_str_mv Lanzarotti, Esteban Omar
Turjanski, Pablo Guillermo
dc.subject.none.fl_str_mv METAGENOMAS
DIVERSIDAD
REPETICIONES MAXIMALES
topic METAGENOMAS
DIVERSIDAD
REPETICIONES MAXIMALES
dc.description.none.fl_txt_mv Los avances en las tecnologías de secuenciación de ADN producidos en la última década permitieron generar grandes cantidades de datos nuevos para analizar. A partir de esto, aplicaciones como la metagenómica tomaron relevancia. Esta consiste en analizar el ADN de los diferentes microorganismos que componen una comunidad a partir de muestras provenientes de distintas fuentes, por ejemplo, de estudios ambientales de suelo o de análisis clínicos de sangre. Las limitaciones actuales de las tecnologías de secuenciación no permiten obtener los genomas completos de los microorganismos presentes en estas muestras, es por esto que uno de los desafíos que se presenta en la actualidad es poder determinar las especies que componen un metagenoma a partir de sus lecturas. En este trabajo buscamos un método para la estimación de la diversidad de metagenomas de bacterias a partir del cálculo de intervalos maximales de repetición. Para esto utilizamos una adaptación del algoritmo propuesto por Ilie et al. para el cálculo de estos intervalos y analizamos la relación entre distintas propiedades de los mismos y la cantidad de genomas utilizando metagenomas simulados. A partir de este análisis formulamos un modelo que, utilizando los intervalos de repeticiones maximales de un metagenoma, permite estimar la cantidad de genomas que lo integran. Evaluamos nuestro método en metagenomas simulados a partir de genomas de bacterias conocidos obteniendo una buena estimación de la cantidad de genomas que lo componen. Adicionalmente utilizamos un conjunto de metagenomas de virus generado en el trabajo de Roux et al. de manera de proveer una validación independiente de los datos usados para obtener el modelo. En este caso obtuvimos un error de escala muy alto al estimar la diversidad, pudiendo deberse a que los datos utilizados fueron generados a partir de virus mientras que nuestro modelo utilizó bacterias o a que en el trabajo de Roux se utilizan entre 500 y 1000 virus mientras que nosotros utilizamos solamente 40 bacterias. Sin embargo, si encontramos cierta correlación al utilizar nuestro método para ordenar los metagenomas según la cantidad de genomas.
Fil: Tanenzapf, Maia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Los avances en las tecnologías de secuenciación de ADN producidos en la última década permitieron generar grandes cantidades de datos nuevos para analizar. A partir de esto, aplicaciones como la metagenómica tomaron relevancia. Esta consiste en analizar el ADN de los diferentes microorganismos que componen una comunidad a partir de muestras provenientes de distintas fuentes, por ejemplo, de estudios ambientales de suelo o de análisis clínicos de sangre. Las limitaciones actuales de las tecnologías de secuenciación no permiten obtener los genomas completos de los microorganismos presentes en estas muestras, es por esto que uno de los desafíos que se presenta en la actualidad es poder determinar las especies que componen un metagenoma a partir de sus lecturas. En este trabajo buscamos un método para la estimación de la diversidad de metagenomas de bacterias a partir del cálculo de intervalos maximales de repetición. Para esto utilizamos una adaptación del algoritmo propuesto por Ilie et al. para el cálculo de estos intervalos y analizamos la relación entre distintas propiedades de los mismos y la cantidad de genomas utilizando metagenomas simulados. A partir de este análisis formulamos un modelo que, utilizando los intervalos de repeticiones maximales de un metagenoma, permite estimar la cantidad de genomas que lo integran. Evaluamos nuestro método en metagenomas simulados a partir de genomas de bacterias conocidos obteniendo una buena estimación de la cantidad de genomas que lo componen. Adicionalmente utilizamos un conjunto de metagenomas de virus generado en el trabajo de Roux et al. de manera de proveer una validación independiente de los datos usados para obtener el modelo. En este caso obtuvimos un error de escala muy alto al estimar la diversidad, pudiendo deberse a que los datos utilizados fueron generados a partir de virus mientras que nuestro modelo utilizó bacterias o a que en el trabajo de Roux se utilizan entre 500 y 1000 virus mientras que nosotros utilizamos solamente 40 bacterias. Sin embargo, si encontramos cierta correlación al utilizar nuestro método para ordenar los metagenomas según la cantidad de genomas.
publishDate 2020
dc.date.none.fl_str_mv 2020
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000581_Tanenzapf
url https://hdl.handle.net/20.500.12110/seminario_nCOM000581_Tanenzapf
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1842975028090503168
score 12.993085