Patrones de repetición para clasificación e identificación de proteínas

Autores
Rago, Pablo Diego
Año de publicación
2017
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Turjanski, Pablo Guillermo
Descripción
Las proteínas son grandes moléculas formadas por cadenas lineales de aminoácidos. Una abstracción posible de esta estructura permite pensar a las mismas como cadenas de caracteres, donde cada aminoácido se corresponde con un carácter, y así es posible representar su estructura primaria. Algunas proteínas naturales presentan patrones estructurales recurrentes. Estas moléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición (fibrilares, repetitivas y globulares). Las proteínas repetitivas a pesar de ser muy similares a nivel de estructura terciaria, pueden tener repeticiones extremadamente variables a nivel de estructura primaria. En su trabajo del año 2016, Turjanski et al proponen una definición matemática de repetición para buscar ocurrencias de estas secuencias en diferentes familias de proteínas. En este trabajo el grupo describe que cadenas largas de repeticiones exactas son infrecuentes en proteínas particulares, incluso para aquellas que se conoce que se pliegan en estructuras de motivos estructurales recurrentes. Por otro lado, también detallan que estas proteínas son repetitivas dentro de sus familias, exhibiendo cadenas de aminoácidos que son repeticiones exactas provenientes de la familia de referencia. Como producto de esto, proponen un algoritmo para cuantificar las chances de que una proteína particular pertenezca a una cierta familia. En el presente trabajo se estudian y proponen modificaciones al algoritmo mencionado para mejorar su eficiencia a nivel performance computacional y calidad de resultados obtenidos. Para ello se exploran varias opciones. La principal variante se basa en utilizar la noción de supermaximalidad de repeticiones en reemplazo de maximalidad. Adicionalmente se estudia incorporar al algoritmo el uso de otras características de la repetición, como ser la cantidad de instancias y su longitud, entre otras. Los resultados obtenidos han sido comparados con los obtenidos en el trabajo de Turjanski et. al. En algunos casos, los resultados obtenidos han sido superiores a los existentes, arrojando indicios de cuáles serían las características que permiten la mejora. Adicionalmente, se realizó una búsqueda de subcadenas únicas minimales dentro de una familia, con el objetivo de identificar unívocamente una proteína dentro de una familia. Se implementó un algoritmo y se analizaron los resultados obtenidos en base a la familia de proteínas ankyrin. La intención es, a futuro, poder combinar dicha información con la de repeticiones y así poder obtener un algoritmo más preciso aún.
Fil: Rago, Pablo Diego. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
PROTEINAS
SUBCADENAS UNICAS MINIMALES
REPETICIONES SUPERMAXIMALES
CLASIFICACION
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000660_Rago

id BDUBAFCEN_17352c34b2b64a714a6095eb0a6183e0
oai_identifier_str seminario:seminario_nCOM000660_Rago
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Patrones de repetición para clasificación e identificación de proteínasRago, Pablo DiegoPROTEINASSUBCADENAS UNICAS MINIMALESREPETICIONES SUPERMAXIMALESCLASIFICACIONLas proteínas son grandes moléculas formadas por cadenas lineales de aminoácidos. Una abstracción posible de esta estructura permite pensar a las mismas como cadenas de caracteres, donde cada aminoácido se corresponde con un carácter, y así es posible representar su estructura primaria. Algunas proteínas naturales presentan patrones estructurales recurrentes. Estas moléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición (fibrilares, repetitivas y globulares). Las proteínas repetitivas a pesar de ser muy similares a nivel de estructura terciaria, pueden tener repeticiones extremadamente variables a nivel de estructura primaria. En su trabajo del año 2016, Turjanski et al proponen una definición matemática de repetición para buscar ocurrencias de estas secuencias en diferentes familias de proteínas. En este trabajo el grupo describe que cadenas largas de repeticiones exactas son infrecuentes en proteínas particulares, incluso para aquellas que se conoce que se pliegan en estructuras de motivos estructurales recurrentes. Por otro lado, también detallan que estas proteínas son repetitivas dentro de sus familias, exhibiendo cadenas de aminoácidos que son repeticiones exactas provenientes de la familia de referencia. Como producto de esto, proponen un algoritmo para cuantificar las chances de que una proteína particular pertenezca a una cierta familia. En el presente trabajo se estudian y proponen modificaciones al algoritmo mencionado para mejorar su eficiencia a nivel performance computacional y calidad de resultados obtenidos. Para ello se exploran varias opciones. La principal variante se basa en utilizar la noción de supermaximalidad de repeticiones en reemplazo de maximalidad. Adicionalmente se estudia incorporar al algoritmo el uso de otras características de la repetición, como ser la cantidad de instancias y su longitud, entre otras. Los resultados obtenidos han sido comparados con los obtenidos en el trabajo de Turjanski et. al. En algunos casos, los resultados obtenidos han sido superiores a los existentes, arrojando indicios de cuáles serían las características que permiten la mejora. Adicionalmente, se realizó una búsqueda de subcadenas únicas minimales dentro de una familia, con el objetivo de identificar unívocamente una proteína dentro de una familia. Se implementó un algoritmo y se analizaron los resultados obtenidos en base a la familia de proteínas ankyrin. La intención es, a futuro, poder combinar dicha información con la de repeticiones y así poder obtener un algoritmo más preciso aún.Fil: Rago, Pablo Diego. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesTurjanski, Pablo Guillermo2017info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000660_Ragospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:36Zseminario:seminario_nCOM000660_RagoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:37.611Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Patrones de repetición para clasificación e identificación de proteínas
title Patrones de repetición para clasificación e identificación de proteínas
spellingShingle Patrones de repetición para clasificación e identificación de proteínas
Rago, Pablo Diego
PROTEINAS
SUBCADENAS UNICAS MINIMALES
REPETICIONES SUPERMAXIMALES
CLASIFICACION
title_short Patrones de repetición para clasificación e identificación de proteínas
title_full Patrones de repetición para clasificación e identificación de proteínas
title_fullStr Patrones de repetición para clasificación e identificación de proteínas
title_full_unstemmed Patrones de repetición para clasificación e identificación de proteínas
title_sort Patrones de repetición para clasificación e identificación de proteínas
dc.creator.none.fl_str_mv Rago, Pablo Diego
author Rago, Pablo Diego
author_facet Rago, Pablo Diego
author_role author
dc.contributor.none.fl_str_mv Turjanski, Pablo Guillermo
dc.subject.none.fl_str_mv PROTEINAS
SUBCADENAS UNICAS MINIMALES
REPETICIONES SUPERMAXIMALES
CLASIFICACION
topic PROTEINAS
SUBCADENAS UNICAS MINIMALES
REPETICIONES SUPERMAXIMALES
CLASIFICACION
dc.description.none.fl_txt_mv Las proteínas son grandes moléculas formadas por cadenas lineales de aminoácidos. Una abstracción posible de esta estructura permite pensar a las mismas como cadenas de caracteres, donde cada aminoácido se corresponde con un carácter, y así es posible representar su estructura primaria. Algunas proteínas naturales presentan patrones estructurales recurrentes. Estas moléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición (fibrilares, repetitivas y globulares). Las proteínas repetitivas a pesar de ser muy similares a nivel de estructura terciaria, pueden tener repeticiones extremadamente variables a nivel de estructura primaria. En su trabajo del año 2016, Turjanski et al proponen una definición matemática de repetición para buscar ocurrencias de estas secuencias en diferentes familias de proteínas. En este trabajo el grupo describe que cadenas largas de repeticiones exactas son infrecuentes en proteínas particulares, incluso para aquellas que se conoce que se pliegan en estructuras de motivos estructurales recurrentes. Por otro lado, también detallan que estas proteínas son repetitivas dentro de sus familias, exhibiendo cadenas de aminoácidos que son repeticiones exactas provenientes de la familia de referencia. Como producto de esto, proponen un algoritmo para cuantificar las chances de que una proteína particular pertenezca a una cierta familia. En el presente trabajo se estudian y proponen modificaciones al algoritmo mencionado para mejorar su eficiencia a nivel performance computacional y calidad de resultados obtenidos. Para ello se exploran varias opciones. La principal variante se basa en utilizar la noción de supermaximalidad de repeticiones en reemplazo de maximalidad. Adicionalmente se estudia incorporar al algoritmo el uso de otras características de la repetición, como ser la cantidad de instancias y su longitud, entre otras. Los resultados obtenidos han sido comparados con los obtenidos en el trabajo de Turjanski et. al. En algunos casos, los resultados obtenidos han sido superiores a los existentes, arrojando indicios de cuáles serían las características que permiten la mejora. Adicionalmente, se realizó una búsqueda de subcadenas únicas minimales dentro de una familia, con el objetivo de identificar unívocamente una proteína dentro de una familia. Se implementó un algoritmo y se analizaron los resultados obtenidos en base a la familia de proteínas ankyrin. La intención es, a futuro, poder combinar dicha información con la de repeticiones y así poder obtener un algoritmo más preciso aún.
Fil: Rago, Pablo Diego. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Las proteínas son grandes moléculas formadas por cadenas lineales de aminoácidos. Una abstracción posible de esta estructura permite pensar a las mismas como cadenas de caracteres, donde cada aminoácido se corresponde con un carácter, y así es posible representar su estructura primaria. Algunas proteínas naturales presentan patrones estructurales recurrentes. Estas moléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición (fibrilares, repetitivas y globulares). Las proteínas repetitivas a pesar de ser muy similares a nivel de estructura terciaria, pueden tener repeticiones extremadamente variables a nivel de estructura primaria. En su trabajo del año 2016, Turjanski et al proponen una definición matemática de repetición para buscar ocurrencias de estas secuencias en diferentes familias de proteínas. En este trabajo el grupo describe que cadenas largas de repeticiones exactas son infrecuentes en proteínas particulares, incluso para aquellas que se conoce que se pliegan en estructuras de motivos estructurales recurrentes. Por otro lado, también detallan que estas proteínas son repetitivas dentro de sus familias, exhibiendo cadenas de aminoácidos que son repeticiones exactas provenientes de la familia de referencia. Como producto de esto, proponen un algoritmo para cuantificar las chances de que una proteína particular pertenezca a una cierta familia. En el presente trabajo se estudian y proponen modificaciones al algoritmo mencionado para mejorar su eficiencia a nivel performance computacional y calidad de resultados obtenidos. Para ello se exploran varias opciones. La principal variante se basa en utilizar la noción de supermaximalidad de repeticiones en reemplazo de maximalidad. Adicionalmente se estudia incorporar al algoritmo el uso de otras características de la repetición, como ser la cantidad de instancias y su longitud, entre otras. Los resultados obtenidos han sido comparados con los obtenidos en el trabajo de Turjanski et. al. En algunos casos, los resultados obtenidos han sido superiores a los existentes, arrojando indicios de cuáles serían las características que permiten la mejora. Adicionalmente, se realizó una búsqueda de subcadenas únicas minimales dentro de una familia, con el objetivo de identificar unívocamente una proteína dentro de una familia. Se implementó un algoritmo y se analizaron los resultados obtenidos en base a la familia de proteínas ankyrin. La intención es, a futuro, poder combinar dicha información con la de repeticiones y así poder obtener un algoritmo más preciso aún.
publishDate 2017
dc.date.none.fl_str_mv 2017
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000660_Rago
url https://hdl.handle.net/20.500.12110/seminario_nCOM000660_Rago
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618755159621632
score 13.070432