Funciones de distancia para la clasificación de familias de proteínas

Autores
Ciraco, Agustina
Año de publicación
2020
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Turjanski, Pablo Guillermo
Ferreiro, Diego Ulises
Descripción
Las proteínas son grandes moléculas compuestas por cadenas de aminoácidos. Una posible abstracción de la estructura de una proteína es a través de una secuencia de caracteres, donde cada aminoácido se corresponde con un caracter. Esta representación se corresponde con lo que se denomina estructura primaria de una proteína. En la naturaleza, existen ciertas proteínas que presentan patrones estructurales recurrentes en su estructura primaria. Estas macromoléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición que las constituyen. Aquellas para las cuales sus patrones de repetición son cortos (menores o iguales a 5 aminoácidos), se denominan fibrilares; para cuyas repeticiones se componen de 6 a 60 aminoácidos se denominan repetitivas; y, finalmente las restantes, se denominan globulares. En el presente trabajo abordamos el desafío de proponer una función de distancia entre familias de proteínas, para su clasificación, a partir de un subconjunto de sus patrones de repetición maximales (Mrs). Como paso previo a la propuesta de una función de distancia, propusimos la estructura de Trie para contener los prefijos de los MRs de las familias de las proteínas. Partiendo de esa estructura exploramos la posibilidad de utilizar algoritmos existentes dentro del campo de las redes de computadoras para la comparación de dichas estructuras. Los resultados obtenidos en esta dirección no fueron exitosos, pues no pudimos encontrar un algoritmo que cumpliera con nuestros requerimientos. A partir del resultado anterior, decidimos proponer una función propia de distancia entre familias de proteínas. Exploramos diversas alternativas, siempre basadas en prefijos de MRs. A todas ellas las pusimos a prueba utilizando como caso de estudio más de 50 familias de proteínas naturales (repetitivas y globulares) y de control. Los resultados obtenidos nos permitieron, en algunas casos, discriminar entre familias de proteínas naturales y de control. Sin embargo, no hemos podido hallar una función que permita agrupar, por un lado familias de proteínas repetitivas, y por el otro globulares. En vista de los resultados obtenidos se puede considerar la posibilidad de que para lograr el objetivo de separar las familias de proteínas globulares de las repetitivas, no alcance solo con los patrones ya que los mismos quizás no posean suficiente información. Tal vez, para poder distinguirlas falte, a modo de ejemplo, información acerca del código de plegado; o quizás sea necesario utilizar otra representación del alfabeto. Queda como línea futura de trabajo pensar alternativas para poder lograr incorporar nueva información.
Fil: Ciraco, Agustina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
FAMILIAS DE PROTEINAS
REPETICIONES MAXIMALES
FUNCION DE DISTANCIA
TRIE
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000444_Ciraco

id BDUBAFCEN_01ba06c79e5d5587a6b6eb39ff4d4668
oai_identifier_str seminario:seminario_nCOM000444_Ciraco
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Funciones de distancia para la clasificación de familias de proteínasCiraco, AgustinaFAMILIAS DE PROTEINASREPETICIONES MAXIMALESFUNCION DE DISTANCIATRIELas proteínas son grandes moléculas compuestas por cadenas de aminoácidos. Una posible abstracción de la estructura de una proteína es a través de una secuencia de caracteres, donde cada aminoácido se corresponde con un caracter. Esta representación se corresponde con lo que se denomina estructura primaria de una proteína. En la naturaleza, existen ciertas proteínas que presentan patrones estructurales recurrentes en su estructura primaria. Estas macromoléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición que las constituyen. Aquellas para las cuales sus patrones de repetición son cortos (menores o iguales a 5 aminoácidos), se denominan fibrilares; para cuyas repeticiones se componen de 6 a 60 aminoácidos se denominan repetitivas; y, finalmente las restantes, se denominan globulares. En el presente trabajo abordamos el desafío de proponer una función de distancia entre familias de proteínas, para su clasificación, a partir de un subconjunto de sus patrones de repetición maximales (Mrs). Como paso previo a la propuesta de una función de distancia, propusimos la estructura de Trie para contener los prefijos de los MRs de las familias de las proteínas. Partiendo de esa estructura exploramos la posibilidad de utilizar algoritmos existentes dentro del campo de las redes de computadoras para la comparación de dichas estructuras. Los resultados obtenidos en esta dirección no fueron exitosos, pues no pudimos encontrar un algoritmo que cumpliera con nuestros requerimientos. A partir del resultado anterior, decidimos proponer una función propia de distancia entre familias de proteínas. Exploramos diversas alternativas, siempre basadas en prefijos de MRs. A todas ellas las pusimos a prueba utilizando como caso de estudio más de 50 familias de proteínas naturales (repetitivas y globulares) y de control. Los resultados obtenidos nos permitieron, en algunas casos, discriminar entre familias de proteínas naturales y de control. Sin embargo, no hemos podido hallar una función que permita agrupar, por un lado familias de proteínas repetitivas, y por el otro globulares. En vista de los resultados obtenidos se puede considerar la posibilidad de que para lograr el objetivo de separar las familias de proteínas globulares de las repetitivas, no alcance solo con los patrones ya que los mismos quizás no posean suficiente información. Tal vez, para poder distinguirlas falte, a modo de ejemplo, información acerca del código de plegado; o quizás sea necesario utilizar otra representación del alfabeto. Queda como línea futura de trabajo pensar alternativas para poder lograr incorporar nueva información.Fil: Ciraco, Agustina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesTurjanski, Pablo GuillermoFerreiro, Diego Ulises2020-12-21info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000444_Ciracospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:36Zseminario:seminario_nCOM000444_CiracoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:37.895Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Funciones de distancia para la clasificación de familias de proteínas
title Funciones de distancia para la clasificación de familias de proteínas
spellingShingle Funciones de distancia para la clasificación de familias de proteínas
Ciraco, Agustina
FAMILIAS DE PROTEINAS
REPETICIONES MAXIMALES
FUNCION DE DISTANCIA
TRIE
title_short Funciones de distancia para la clasificación de familias de proteínas
title_full Funciones de distancia para la clasificación de familias de proteínas
title_fullStr Funciones de distancia para la clasificación de familias de proteínas
title_full_unstemmed Funciones de distancia para la clasificación de familias de proteínas
title_sort Funciones de distancia para la clasificación de familias de proteínas
dc.creator.none.fl_str_mv Ciraco, Agustina
author Ciraco, Agustina
author_facet Ciraco, Agustina
author_role author
dc.contributor.none.fl_str_mv Turjanski, Pablo Guillermo
Ferreiro, Diego Ulises
dc.subject.none.fl_str_mv FAMILIAS DE PROTEINAS
REPETICIONES MAXIMALES
FUNCION DE DISTANCIA
TRIE
topic FAMILIAS DE PROTEINAS
REPETICIONES MAXIMALES
FUNCION DE DISTANCIA
TRIE
dc.description.none.fl_txt_mv Las proteínas son grandes moléculas compuestas por cadenas de aminoácidos. Una posible abstracción de la estructura de una proteína es a través de una secuencia de caracteres, donde cada aminoácido se corresponde con un caracter. Esta representación se corresponde con lo que se denomina estructura primaria de una proteína. En la naturaleza, existen ciertas proteínas que presentan patrones estructurales recurrentes en su estructura primaria. Estas macromoléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición que las constituyen. Aquellas para las cuales sus patrones de repetición son cortos (menores o iguales a 5 aminoácidos), se denominan fibrilares; para cuyas repeticiones se componen de 6 a 60 aminoácidos se denominan repetitivas; y, finalmente las restantes, se denominan globulares. En el presente trabajo abordamos el desafío de proponer una función de distancia entre familias de proteínas, para su clasificación, a partir de un subconjunto de sus patrones de repetición maximales (Mrs). Como paso previo a la propuesta de una función de distancia, propusimos la estructura de Trie para contener los prefijos de los MRs de las familias de las proteínas. Partiendo de esa estructura exploramos la posibilidad de utilizar algoritmos existentes dentro del campo de las redes de computadoras para la comparación de dichas estructuras. Los resultados obtenidos en esta dirección no fueron exitosos, pues no pudimos encontrar un algoritmo que cumpliera con nuestros requerimientos. A partir del resultado anterior, decidimos proponer una función propia de distancia entre familias de proteínas. Exploramos diversas alternativas, siempre basadas en prefijos de MRs. A todas ellas las pusimos a prueba utilizando como caso de estudio más de 50 familias de proteínas naturales (repetitivas y globulares) y de control. Los resultados obtenidos nos permitieron, en algunas casos, discriminar entre familias de proteínas naturales y de control. Sin embargo, no hemos podido hallar una función que permita agrupar, por un lado familias de proteínas repetitivas, y por el otro globulares. En vista de los resultados obtenidos se puede considerar la posibilidad de que para lograr el objetivo de separar las familias de proteínas globulares de las repetitivas, no alcance solo con los patrones ya que los mismos quizás no posean suficiente información. Tal vez, para poder distinguirlas falte, a modo de ejemplo, información acerca del código de plegado; o quizás sea necesario utilizar otra representación del alfabeto. Queda como línea futura de trabajo pensar alternativas para poder lograr incorporar nueva información.
Fil: Ciraco, Agustina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Las proteínas son grandes moléculas compuestas por cadenas de aminoácidos. Una posible abstracción de la estructura de una proteína es a través de una secuencia de caracteres, donde cada aminoácido se corresponde con un caracter. Esta representación se corresponde con lo que se denomina estructura primaria de una proteína. En la naturaleza, existen ciertas proteínas que presentan patrones estructurales recurrentes en su estructura primaria. Estas macromoléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición que las constituyen. Aquellas para las cuales sus patrones de repetición son cortos (menores o iguales a 5 aminoácidos), se denominan fibrilares; para cuyas repeticiones se componen de 6 a 60 aminoácidos se denominan repetitivas; y, finalmente las restantes, se denominan globulares. En el presente trabajo abordamos el desafío de proponer una función de distancia entre familias de proteínas, para su clasificación, a partir de un subconjunto de sus patrones de repetición maximales (Mrs). Como paso previo a la propuesta de una función de distancia, propusimos la estructura de Trie para contener los prefijos de los MRs de las familias de las proteínas. Partiendo de esa estructura exploramos la posibilidad de utilizar algoritmos existentes dentro del campo de las redes de computadoras para la comparación de dichas estructuras. Los resultados obtenidos en esta dirección no fueron exitosos, pues no pudimos encontrar un algoritmo que cumpliera con nuestros requerimientos. A partir del resultado anterior, decidimos proponer una función propia de distancia entre familias de proteínas. Exploramos diversas alternativas, siempre basadas en prefijos de MRs. A todas ellas las pusimos a prueba utilizando como caso de estudio más de 50 familias de proteínas naturales (repetitivas y globulares) y de control. Los resultados obtenidos nos permitieron, en algunas casos, discriminar entre familias de proteínas naturales y de control. Sin embargo, no hemos podido hallar una función que permita agrupar, por un lado familias de proteínas repetitivas, y por el otro globulares. En vista de los resultados obtenidos se puede considerar la posibilidad de que para lograr el objetivo de separar las familias de proteínas globulares de las repetitivas, no alcance solo con los patrones ya que los mismos quizás no posean suficiente información. Tal vez, para poder distinguirlas falte, a modo de ejemplo, información acerca del código de plegado; o quizás sea necesario utilizar otra representación del alfabeto. Queda como línea futura de trabajo pensar alternativas para poder lograr incorporar nueva información.
publishDate 2020
dc.date.none.fl_str_mv 2020-12-21
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000444_Ciraco
url https://hdl.handle.net/20.500.12110/seminario_nCOM000444_Ciraco
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618755629383680
score 13.070432