Termodinámica y evolución de proteínas repetitivas

Autores
Galpern, Ezequiel Alejandro
Año de publicación
2022
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión publicada
Colaborador/a o director/a de tesis
Ferreiro, Diego Ulises
Descripción
Toda sucesión de aminoácidos forma una cadena lineal, pero sólo una minúscula fracción de esas cadenas puede adquirir ciertas estructuras tridimensionales estables en las condiciones apropiadas. Este proceso, denominado plegado, es característico de los polipéptidos que realizan actividades biológicas específicas en los organismos vivos: las proteínas naturales. La hipótesis central de este trabajo es que es posible comprender las relaciones entre las secuencias, la termodinámica de plegado y función biológicas utilizando las señales que ha dejado la evolución en las secuencias naturales. En particular, nos focalizamos en las proteínas repetitivas que constituyen un sistema privilegiado para enfrentarse al problema del plegado. Comenzamos construyendo, curando y analizando un set de datos de secuencias naturales con 1.2 millones de regiones Ankirinas, la familia repetitiva más numerosa. Encontramos que estas proteínas no están formadas por repeticiones de secuencia ordenadas al azar, sino que existen correlaciones características entre las unidades. En particular, los arreglos de repeticiones más largos están formados por repeticiones más similares entre sí. Utilizamos el set de secuencias naturales para aprender un modelo estadístico que infiera las restricciones evolutivas sobre arreglos repetitivos de distinto largo. Proponemos una familia de modelos que incorporan además de mutaciones puntuales, duplicaciones y eliminaciones de repeticiones completas. Encontramos que para reproducir los patrones de correlación entre repeticiones de arreglos naturales es necesario incorporar un mecanismo de ráfagas de duplicaciones que ponen al sistema fuera del equilibrio. Finalmente, proponemos un esquema para mapear localmente la información evolutiva de una secuencia en un modelo de Ising de grano grueso que describe el plegado de proteínas repetitivas. Logramos caracterizar la termodinámica de plegado de miles de proteínas de la familia Ankirina, utilizando solamente información de secuencia. Generamos curvas de plegado térmico y encontramos dominios e intermediarios de plegado que resultan altamente compatibles con resultados experimentales. Encontramos una gran variedad de mecanismos de plegado y demostramos que la estabilidad y la cooperatividad de un arreglo de repeticiones se pueden estimar directamente de las secuencias con un score energético sencillo.
Every sequence of amino acids forms a linear chain, but only a minute fraction of those chains can acquire certain stable three-dimensional structures under the appropriate conditions. This process, name folding, is characteristic of the polypeptides that perform specific biological activities in living organisms: natural proteins. The central hypothesis of this work is that it is possible to understand the relationship between sequence, folding thermodynamics and biological function using the traces left by natural sequences evolution. Particularly, we focus on repeat-proteins that are a privileged system to face the folding problem. We start by building, curating and analyzing a natural sequence dataset that contain 1.2 million Ankyrin regions, the most abundant repeat-protein family. We found that these proteins are not made of randomly arranged repeat sequences, but there are characteristic correlations between the units. In particular,longer arrays are made up of repeats that are more similar to each other than shorter arrays. We used the natural sequence dataset to learn a statistical model that infers the evolutionay constraints on repeat-arrays of varying length. We propose a family of models that incorporates in addition to point mutations, whole repeat duplications and deletions. We found that to reproduce the correlation patterns between repeats in natural arrays, is necessary to incorporate a duplication burst mechanism that pulls the system out of equilibrium. Finally, we propose a scheme to map evolutionary information at the sequence level locally to a coarse-grained Ising model for repeat-protein folding. We characterized the folding thermodynamics of thousands of Ankyrin proteins using only sequence information. We generated thermal folding curves, we detected apparent domain emergence and occupation of intermediate states that are highly compatible with experimental data. We found a multiplicity of folding mechanisms and we showed that stability and cooperativity of a repeat-array can be estimated from sequences using a simple energy score.
Fil: Galpern, Ezequiel Alejandro. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
PROTEINAS REPETITIVAS
PLEGADO
EVOLUCION
ANKIRINAS
REPEAT PROTEIN
FOLDING
EVOLUTION
ANKYRIN
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
tesis:tesis_n7101_Galpern

id BDUBAFCEN_f06560d32a7a9eee074b0736f716e98c
oai_identifier_str tesis:tesis_n7101_Galpern
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Termodinámica y evolución de proteínas repetitivasThermodynamics and evolution of repeat-proteinsGalpern, Ezequiel AlejandroPROTEINAS REPETITIVASPLEGADOEVOLUCIONANKIRINASREPEAT PROTEINFOLDINGEVOLUTIONANKYRINToda sucesión de aminoácidos forma una cadena lineal, pero sólo una minúscula fracción de esas cadenas puede adquirir ciertas estructuras tridimensionales estables en las condiciones apropiadas. Este proceso, denominado plegado, es característico de los polipéptidos que realizan actividades biológicas específicas en los organismos vivos: las proteínas naturales. La hipótesis central de este trabajo es que es posible comprender las relaciones entre las secuencias, la termodinámica de plegado y función biológicas utilizando las señales que ha dejado la evolución en las secuencias naturales. En particular, nos focalizamos en las proteínas repetitivas que constituyen un sistema privilegiado para enfrentarse al problema del plegado. Comenzamos construyendo, curando y analizando un set de datos de secuencias naturales con 1.2 millones de regiones Ankirinas, la familia repetitiva más numerosa. Encontramos que estas proteínas no están formadas por repeticiones de secuencia ordenadas al azar, sino que existen correlaciones características entre las unidades. En particular, los arreglos de repeticiones más largos están formados por repeticiones más similares entre sí. Utilizamos el set de secuencias naturales para aprender un modelo estadístico que infiera las restricciones evolutivas sobre arreglos repetitivos de distinto largo. Proponemos una familia de modelos que incorporan además de mutaciones puntuales, duplicaciones y eliminaciones de repeticiones completas. Encontramos que para reproducir los patrones de correlación entre repeticiones de arreglos naturales es necesario incorporar un mecanismo de ráfagas de duplicaciones que ponen al sistema fuera del equilibrio. Finalmente, proponemos un esquema para mapear localmente la información evolutiva de una secuencia en un modelo de Ising de grano grueso que describe el plegado de proteínas repetitivas. Logramos caracterizar la termodinámica de plegado de miles de proteínas de la familia Ankirina, utilizando solamente información de secuencia. Generamos curvas de plegado térmico y encontramos dominios e intermediarios de plegado que resultan altamente compatibles con resultados experimentales. Encontramos una gran variedad de mecanismos de plegado y demostramos que la estabilidad y la cooperatividad de un arreglo de repeticiones se pueden estimar directamente de las secuencias con un score energético sencillo.Every sequence of amino acids forms a linear chain, but only a minute fraction of those chains can acquire certain stable three-dimensional structures under the appropriate conditions. This process, name folding, is characteristic of the polypeptides that perform specific biological activities in living organisms: natural proteins. The central hypothesis of this work is that it is possible to understand the relationship between sequence, folding thermodynamics and biological function using the traces left by natural sequences evolution. Particularly, we focus on repeat-proteins that are a privileged system to face the folding problem. We start by building, curating and analyzing a natural sequence dataset that contain 1.2 million Ankyrin regions, the most abundant repeat-protein family. We found that these proteins are not made of randomly arranged repeat sequences, but there are characteristic correlations between the units. In particular,longer arrays are made up of repeats that are more similar to each other than shorter arrays. We used the natural sequence dataset to learn a statistical model that infers the evolutionay constraints on repeat-arrays of varying length. We propose a family of models that incorporates in addition to point mutations, whole repeat duplications and deletions. We found that to reproduce the correlation patterns between repeats in natural arrays, is necessary to incorporate a duplication burst mechanism that pulls the system out of equilibrium. Finally, we propose a scheme to map evolutionary information at the sequence level locally to a coarse-grained Ising model for repeat-protein folding. We characterized the folding thermodynamics of thousands of Ankyrin proteins using only sequence information. We generated thermal folding curves, we detected apparent domain emergence and occupation of intermediate states that are highly compatible with experimental data. We found a multiplicity of folding mechanisms and we showed that stability and cooperativity of a repeat-array can be estimated from sequences using a simple energy score.Fil: Galpern, Ezequiel Alejandro. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesFerreiro, Diego Ulises2022-07-13info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n7101_Galpernspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:41:31Ztesis:tesis_n7101_GalpernInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:41:32.308Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Termodinámica y evolución de proteínas repetitivas
Thermodynamics and evolution of repeat-proteins
title Termodinámica y evolución de proteínas repetitivas
spellingShingle Termodinámica y evolución de proteínas repetitivas
Galpern, Ezequiel Alejandro
PROTEINAS REPETITIVAS
PLEGADO
EVOLUCION
ANKIRINAS
REPEAT PROTEIN
FOLDING
EVOLUTION
ANKYRIN
title_short Termodinámica y evolución de proteínas repetitivas
title_full Termodinámica y evolución de proteínas repetitivas
title_fullStr Termodinámica y evolución de proteínas repetitivas
title_full_unstemmed Termodinámica y evolución de proteínas repetitivas
title_sort Termodinámica y evolución de proteínas repetitivas
dc.creator.none.fl_str_mv Galpern, Ezequiel Alejandro
author Galpern, Ezequiel Alejandro
author_facet Galpern, Ezequiel Alejandro
author_role author
dc.contributor.none.fl_str_mv Ferreiro, Diego Ulises
dc.subject.none.fl_str_mv PROTEINAS REPETITIVAS
PLEGADO
EVOLUCION
ANKIRINAS
REPEAT PROTEIN
FOLDING
EVOLUTION
ANKYRIN
topic PROTEINAS REPETITIVAS
PLEGADO
EVOLUCION
ANKIRINAS
REPEAT PROTEIN
FOLDING
EVOLUTION
ANKYRIN
dc.description.none.fl_txt_mv Toda sucesión de aminoácidos forma una cadena lineal, pero sólo una minúscula fracción de esas cadenas puede adquirir ciertas estructuras tridimensionales estables en las condiciones apropiadas. Este proceso, denominado plegado, es característico de los polipéptidos que realizan actividades biológicas específicas en los organismos vivos: las proteínas naturales. La hipótesis central de este trabajo es que es posible comprender las relaciones entre las secuencias, la termodinámica de plegado y función biológicas utilizando las señales que ha dejado la evolución en las secuencias naturales. En particular, nos focalizamos en las proteínas repetitivas que constituyen un sistema privilegiado para enfrentarse al problema del plegado. Comenzamos construyendo, curando y analizando un set de datos de secuencias naturales con 1.2 millones de regiones Ankirinas, la familia repetitiva más numerosa. Encontramos que estas proteínas no están formadas por repeticiones de secuencia ordenadas al azar, sino que existen correlaciones características entre las unidades. En particular, los arreglos de repeticiones más largos están formados por repeticiones más similares entre sí. Utilizamos el set de secuencias naturales para aprender un modelo estadístico que infiera las restricciones evolutivas sobre arreglos repetitivos de distinto largo. Proponemos una familia de modelos que incorporan además de mutaciones puntuales, duplicaciones y eliminaciones de repeticiones completas. Encontramos que para reproducir los patrones de correlación entre repeticiones de arreglos naturales es necesario incorporar un mecanismo de ráfagas de duplicaciones que ponen al sistema fuera del equilibrio. Finalmente, proponemos un esquema para mapear localmente la información evolutiva de una secuencia en un modelo de Ising de grano grueso que describe el plegado de proteínas repetitivas. Logramos caracterizar la termodinámica de plegado de miles de proteínas de la familia Ankirina, utilizando solamente información de secuencia. Generamos curvas de plegado térmico y encontramos dominios e intermediarios de plegado que resultan altamente compatibles con resultados experimentales. Encontramos una gran variedad de mecanismos de plegado y demostramos que la estabilidad y la cooperatividad de un arreglo de repeticiones se pueden estimar directamente de las secuencias con un score energético sencillo.
Every sequence of amino acids forms a linear chain, but only a minute fraction of those chains can acquire certain stable three-dimensional structures under the appropriate conditions. This process, name folding, is characteristic of the polypeptides that perform specific biological activities in living organisms: natural proteins. The central hypothesis of this work is that it is possible to understand the relationship between sequence, folding thermodynamics and biological function using the traces left by natural sequences evolution. Particularly, we focus on repeat-proteins that are a privileged system to face the folding problem. We start by building, curating and analyzing a natural sequence dataset that contain 1.2 million Ankyrin regions, the most abundant repeat-protein family. We found that these proteins are not made of randomly arranged repeat sequences, but there are characteristic correlations between the units. In particular,longer arrays are made up of repeats that are more similar to each other than shorter arrays. We used the natural sequence dataset to learn a statistical model that infers the evolutionay constraints on repeat-arrays of varying length. We propose a family of models that incorporates in addition to point mutations, whole repeat duplications and deletions. We found that to reproduce the correlation patterns between repeats in natural arrays, is necessary to incorporate a duplication burst mechanism that pulls the system out of equilibrium. Finally, we propose a scheme to map evolutionary information at the sequence level locally to a coarse-grained Ising model for repeat-protein folding. We characterized the folding thermodynamics of thousands of Ankyrin proteins using only sequence information. We generated thermal folding curves, we detected apparent domain emergence and occupation of intermediate states that are highly compatible with experimental data. We found a multiplicity of folding mechanisms and we showed that stability and cooperativity of a repeat-array can be estimated from sequences using a simple energy score.
Fil: Galpern, Ezequiel Alejandro. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Toda sucesión de aminoácidos forma una cadena lineal, pero sólo una minúscula fracción de esas cadenas puede adquirir ciertas estructuras tridimensionales estables en las condiciones apropiadas. Este proceso, denominado plegado, es característico de los polipéptidos que realizan actividades biológicas específicas en los organismos vivos: las proteínas naturales. La hipótesis central de este trabajo es que es posible comprender las relaciones entre las secuencias, la termodinámica de plegado y función biológicas utilizando las señales que ha dejado la evolución en las secuencias naturales. En particular, nos focalizamos en las proteínas repetitivas que constituyen un sistema privilegiado para enfrentarse al problema del plegado. Comenzamos construyendo, curando y analizando un set de datos de secuencias naturales con 1.2 millones de regiones Ankirinas, la familia repetitiva más numerosa. Encontramos que estas proteínas no están formadas por repeticiones de secuencia ordenadas al azar, sino que existen correlaciones características entre las unidades. En particular, los arreglos de repeticiones más largos están formados por repeticiones más similares entre sí. Utilizamos el set de secuencias naturales para aprender un modelo estadístico que infiera las restricciones evolutivas sobre arreglos repetitivos de distinto largo. Proponemos una familia de modelos que incorporan además de mutaciones puntuales, duplicaciones y eliminaciones de repeticiones completas. Encontramos que para reproducir los patrones de correlación entre repeticiones de arreglos naturales es necesario incorporar un mecanismo de ráfagas de duplicaciones que ponen al sistema fuera del equilibrio. Finalmente, proponemos un esquema para mapear localmente la información evolutiva de una secuencia en un modelo de Ising de grano grueso que describe el plegado de proteínas repetitivas. Logramos caracterizar la termodinámica de plegado de miles de proteínas de la familia Ankirina, utilizando solamente información de secuencia. Generamos curvas de plegado térmico y encontramos dominios e intermediarios de plegado que resultan altamente compatibles con resultados experimentales. Encontramos una gran variedad de mecanismos de plegado y demostramos que la estabilidad y la cooperatividad de un arreglo de repeticiones se pueden estimar directamente de las secuencias con un score energético sencillo.
publishDate 2022
dc.date.none.fl_str_mv 2022-07-13
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/tesis_n7101_Galpern
url https://hdl.handle.net/20.500.12110/tesis_n7101_Galpern
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618707842629632
score 13.070432