Patrones de repetición para clasificación e identificación de proteínas
- Autores
- Rago, Pablo Diego
- Año de publicación
- 2017
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Turjanski, Pablo Guillermo
- Descripción
- Las proteínas son grandes moléculas formadas por cadenas lineales de aminoácidos. Una abstracción posible de esta estructura permite pensar a las mismas como cadenas de caracteres, donde cada aminoácido se corresponde con un carácter, y así es posible representar su estructura primaria. Algunas proteínas naturales presentan patrones estructurales recurrentes. Estas moléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición (fibrilares, repetitivas y globulares). Las proteínas repetitivas a pesar de ser muy similares a nivel de estructura terciaria, pueden tener repeticiones extremadamente variables a nivel de estructura primaria. En su trabajo del año 2016, Turjanski et al proponen una definición matemática de repetición para buscar ocurrencias de estas secuencias en diferentes familias de proteínas. En este trabajo el grupo describe que cadenas largas de repeticiones exactas son infrecuentes en proteínas particulares, incluso para aquellas que se conoce que se pliegan en estructuras de motivos estructurales recurrentes. Por otro lado, también detallan que estas proteínas son repetitivas dentro de sus familias, exhibiendo cadenas de aminoácidos que son repeticiones exactas provenientes de la familia de referencia. Como producto de esto, proponen un algoritmo para cuantificar las chances de que una proteína particular pertenezca a una cierta familia. En el presente trabajo se estudian y proponen modificaciones al algoritmo mencionado para mejorar su eficiencia a nivel performance computacional y calidad de resultados obtenidos. Para ello se exploran varias opciones. La principal variante se basa en utilizar la noción de supermaximalidad de repeticiones en reemplazo de maximalidad. Adicionalmente se estudia incorporar al algoritmo el uso de otras características de la repetición, como ser la cantidad de instancias y su longitud, entre otras. Los resultados obtenidos han sido comparados con los obtenidos en el trabajo de Turjanski et. al. En algunos casos, los resultados obtenidos han sido superiores a los existentes, arrojando indicios de cuáles serían las características que permiten la mejora. Adicionalmente, se realizó una búsqueda de subcadenas únicas minimales dentro de una familia, con el objetivo de identificar unívocamente una proteína dentro de una familia. Se implementó un algoritmo y se analizaron los resultados obtenidos en base a la familia de proteínas ankyrin. La intención es, a futuro, poder combinar dicha información con la de repeticiones y así poder obtener un algoritmo más preciso aún.
Fil: Rago, Pablo Diego. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
PROTEINAS
SUBCADENAS UNICAS MINIMALES
REPETICIONES SUPERMAXIMALES
CLASIFICACION - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000660_Rago
Ver los metadatos del registro completo
id |
BDUBAFCEN_17352c34b2b64a714a6095eb0a6183e0 |
---|---|
oai_identifier_str |
seminario:seminario_nCOM000660_Rago |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Patrones de repetición para clasificación e identificación de proteínasRago, Pablo DiegoPROTEINASSUBCADENAS UNICAS MINIMALESREPETICIONES SUPERMAXIMALESCLASIFICACIONLas proteínas son grandes moléculas formadas por cadenas lineales de aminoácidos. Una abstracción posible de esta estructura permite pensar a las mismas como cadenas de caracteres, donde cada aminoácido se corresponde con un carácter, y así es posible representar su estructura primaria. Algunas proteínas naturales presentan patrones estructurales recurrentes. Estas moléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición (fibrilares, repetitivas y globulares). Las proteínas repetitivas a pesar de ser muy similares a nivel de estructura terciaria, pueden tener repeticiones extremadamente variables a nivel de estructura primaria. En su trabajo del año 2016, Turjanski et al proponen una definición matemática de repetición para buscar ocurrencias de estas secuencias en diferentes familias de proteínas. En este trabajo el grupo describe que cadenas largas de repeticiones exactas son infrecuentes en proteínas particulares, incluso para aquellas que se conoce que se pliegan en estructuras de motivos estructurales recurrentes. Por otro lado, también detallan que estas proteínas son repetitivas dentro de sus familias, exhibiendo cadenas de aminoácidos que son repeticiones exactas provenientes de la familia de referencia. Como producto de esto, proponen un algoritmo para cuantificar las chances de que una proteína particular pertenezca a una cierta familia. En el presente trabajo se estudian y proponen modificaciones al algoritmo mencionado para mejorar su eficiencia a nivel performance computacional y calidad de resultados obtenidos. Para ello se exploran varias opciones. La principal variante se basa en utilizar la noción de supermaximalidad de repeticiones en reemplazo de maximalidad. Adicionalmente se estudia incorporar al algoritmo el uso de otras características de la repetición, como ser la cantidad de instancias y su longitud, entre otras. Los resultados obtenidos han sido comparados con los obtenidos en el trabajo de Turjanski et. al. En algunos casos, los resultados obtenidos han sido superiores a los existentes, arrojando indicios de cuáles serían las características que permiten la mejora. Adicionalmente, se realizó una búsqueda de subcadenas únicas minimales dentro de una familia, con el objetivo de identificar unívocamente una proteína dentro de una familia. Se implementó un algoritmo y se analizaron los resultados obtenidos en base a la familia de proteínas ankyrin. La intención es, a futuro, poder combinar dicha información con la de repeticiones y así poder obtener un algoritmo más preciso aún.Fil: Rago, Pablo Diego. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesTurjanski, Pablo Guillermo2017info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000660_Ragospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:36Zseminario:seminario_nCOM000660_RagoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:37.611Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Patrones de repetición para clasificación e identificación de proteínas |
title |
Patrones de repetición para clasificación e identificación de proteínas |
spellingShingle |
Patrones de repetición para clasificación e identificación de proteínas Rago, Pablo Diego PROTEINAS SUBCADENAS UNICAS MINIMALES REPETICIONES SUPERMAXIMALES CLASIFICACION |
title_short |
Patrones de repetición para clasificación e identificación de proteínas |
title_full |
Patrones de repetición para clasificación e identificación de proteínas |
title_fullStr |
Patrones de repetición para clasificación e identificación de proteínas |
title_full_unstemmed |
Patrones de repetición para clasificación e identificación de proteínas |
title_sort |
Patrones de repetición para clasificación e identificación de proteínas |
dc.creator.none.fl_str_mv |
Rago, Pablo Diego |
author |
Rago, Pablo Diego |
author_facet |
Rago, Pablo Diego |
author_role |
author |
dc.contributor.none.fl_str_mv |
Turjanski, Pablo Guillermo |
dc.subject.none.fl_str_mv |
PROTEINAS SUBCADENAS UNICAS MINIMALES REPETICIONES SUPERMAXIMALES CLASIFICACION |
topic |
PROTEINAS SUBCADENAS UNICAS MINIMALES REPETICIONES SUPERMAXIMALES CLASIFICACION |
dc.description.none.fl_txt_mv |
Las proteínas son grandes moléculas formadas por cadenas lineales de aminoácidos. Una abstracción posible de esta estructura permite pensar a las mismas como cadenas de caracteres, donde cada aminoácido se corresponde con un carácter, y así es posible representar su estructura primaria. Algunas proteínas naturales presentan patrones estructurales recurrentes. Estas moléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición (fibrilares, repetitivas y globulares). Las proteínas repetitivas a pesar de ser muy similares a nivel de estructura terciaria, pueden tener repeticiones extremadamente variables a nivel de estructura primaria. En su trabajo del año 2016, Turjanski et al proponen una definición matemática de repetición para buscar ocurrencias de estas secuencias en diferentes familias de proteínas. En este trabajo el grupo describe que cadenas largas de repeticiones exactas son infrecuentes en proteínas particulares, incluso para aquellas que se conoce que se pliegan en estructuras de motivos estructurales recurrentes. Por otro lado, también detallan que estas proteínas son repetitivas dentro de sus familias, exhibiendo cadenas de aminoácidos que son repeticiones exactas provenientes de la familia de referencia. Como producto de esto, proponen un algoritmo para cuantificar las chances de que una proteína particular pertenezca a una cierta familia. En el presente trabajo se estudian y proponen modificaciones al algoritmo mencionado para mejorar su eficiencia a nivel performance computacional y calidad de resultados obtenidos. Para ello se exploran varias opciones. La principal variante se basa en utilizar la noción de supermaximalidad de repeticiones en reemplazo de maximalidad. Adicionalmente se estudia incorporar al algoritmo el uso de otras características de la repetición, como ser la cantidad de instancias y su longitud, entre otras. Los resultados obtenidos han sido comparados con los obtenidos en el trabajo de Turjanski et. al. En algunos casos, los resultados obtenidos han sido superiores a los existentes, arrojando indicios de cuáles serían las características que permiten la mejora. Adicionalmente, se realizó una búsqueda de subcadenas únicas minimales dentro de una familia, con el objetivo de identificar unívocamente una proteína dentro de una familia. Se implementó un algoritmo y se analizaron los resultados obtenidos en base a la familia de proteínas ankyrin. La intención es, a futuro, poder combinar dicha información con la de repeticiones y así poder obtener un algoritmo más preciso aún. Fil: Rago, Pablo Diego. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
Las proteínas son grandes moléculas formadas por cadenas lineales de aminoácidos. Una abstracción posible de esta estructura permite pensar a las mismas como cadenas de caracteres, donde cada aminoácido se corresponde con un carácter, y así es posible representar su estructura primaria. Algunas proteínas naturales presentan patrones estructurales recurrentes. Estas moléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición (fibrilares, repetitivas y globulares). Las proteínas repetitivas a pesar de ser muy similares a nivel de estructura terciaria, pueden tener repeticiones extremadamente variables a nivel de estructura primaria. En su trabajo del año 2016, Turjanski et al proponen una definición matemática de repetición para buscar ocurrencias de estas secuencias en diferentes familias de proteínas. En este trabajo el grupo describe que cadenas largas de repeticiones exactas son infrecuentes en proteínas particulares, incluso para aquellas que se conoce que se pliegan en estructuras de motivos estructurales recurrentes. Por otro lado, también detallan que estas proteínas son repetitivas dentro de sus familias, exhibiendo cadenas de aminoácidos que son repeticiones exactas provenientes de la familia de referencia. Como producto de esto, proponen un algoritmo para cuantificar las chances de que una proteína particular pertenezca a una cierta familia. En el presente trabajo se estudian y proponen modificaciones al algoritmo mencionado para mejorar su eficiencia a nivel performance computacional y calidad de resultados obtenidos. Para ello se exploran varias opciones. La principal variante se basa en utilizar la noción de supermaximalidad de repeticiones en reemplazo de maximalidad. Adicionalmente se estudia incorporar al algoritmo el uso de otras características de la repetición, como ser la cantidad de instancias y su longitud, entre otras. Los resultados obtenidos han sido comparados con los obtenidos en el trabajo de Turjanski et. al. En algunos casos, los resultados obtenidos han sido superiores a los existentes, arrojando indicios de cuáles serían las características que permiten la mejora. Adicionalmente, se realizó una búsqueda de subcadenas únicas minimales dentro de una familia, con el objetivo de identificar unívocamente una proteína dentro de una familia. Se implementó un algoritmo y se analizaron los resultados obtenidos en base a la familia de proteínas ankyrin. La intención es, a futuro, poder combinar dicha información con la de repeticiones y así poder obtener un algoritmo más preciso aún. |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000660_Rago |
url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000660_Rago |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1844618755159621632 |
score |
13.070432 |