Compresores de datos como estimadores de diversidad en repertorios de células T

Autores
Tarantino, Patricio
Año de publicación
2019
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Lanzarotti, Esteban Omar
Descripción
La diversidad de receptores de células T presentes en el cuerpo humano es una forma de saber la eficiencia del mismo, ya que nos permite saber a cuántos antígenos distintos es capaz de reconocer. Sin embargo, su medición es difícil pues no todos se presentan en muestras sanguíneas, y más aún, aunque tengamos a los receptores de células T, no es fácil saber qué antígeno reconocerán. Pero sí podemos suponer que receptores de células T con secuencias similares reaccionarían frente a las mismas moléculas externas. Proponemos entonces un modelo basado en los compresores de datos, que son capaces de reconocer patrones en cadenas de texto (cadenas de aminoácidos), que intentar´an, dado un conjunto de receptores de células T, estimar su diversidad basado en su composición estructural (sus secuencias de aminoácidos), y a su vez, a cuántos antígenos distintos reconocen. Mejoraremos luego dicho modelo, que llamaremos CompreScore, agregando la noci´on de similitud entre aminoácidos provista por las matrices BLOSUM, que proveer más información a los compresores a la hora de encontrar patrones y obtener información. Por último, probaremos nuestro modelo CompreScore frente a pacientes, y veremos que genera una nueva métrica de diversidad, independiente de las ya conocidas como Shannon o Simpson, y más aún, es también capaz de brindar información en otras dimensiones del paciente, como es su rango etario. Palabras claves: receptores de células T, sistema inmune, diversidad, compresores de datos, BLOSUM.
T-cell repertoire diversity in the human body is a proper way to know how efficient it is, since it allows us to know how many antigens it is able to identify. However, measuring this diversity is not an easy task since not all T-cells are present on blood samples, and even wrose, even if we could access all available T-cells, it is not possible to know to which antigen they will react to. But we can assume that T-cell receptors with similar structure will match against the same molecules. We propose, then, a new model based on data compression, which is able to recognize patterns in data strings (amino acids chains). Our model will try, given a set of T-cell receptors, estimate its diversity based on their structural composition, and, at the same time, how many different antigen they can recognize. We will then improve this model, that we will call CompreScore, adding the notion of similarity between amino acids, given by BLOSUM matrix, which will provide our compressors with more useful information to find patterns. At last, we will try CompreScore against patients’ blood samples, and we will see it generates a new diversity metric, independent from the ones we already know such as Shannon and Simpson, Furthermore, our model is also able to give new information from other dimension, such as the patients’ age range based on its T-cell diversity.
Fil: Tarantino, Patricio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
RECEPTORES DE CELULAS T
SISTEMA INMUNE
DIVERSIDAD
COMPRESORES DE DATOS
BLOSUM
T-CELL REPERTOIRE DIVERSITY
IMMUNE SYSTEM
DIVERSITY
DATA COMPRESSION
BLOSUM
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000609_Tarantino

id BDUBAFCEN_5ae7b9cdce2395766d7a791f225ab0c6
oai_identifier_str seminario:seminario_nCOM000609_Tarantino
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Compresores de datos como estimadores de diversidad en repertorios de células TTarantino, PatricioRECEPTORES DE CELULAS TSISTEMA INMUNEDIVERSIDADCOMPRESORES DE DATOSBLOSUMT-CELL REPERTOIRE DIVERSITYIMMUNE SYSTEMDIVERSITYDATA COMPRESSIONBLOSUMLa diversidad de receptores de células T presentes en el cuerpo humano es una forma de saber la eficiencia del mismo, ya que nos permite saber a cuántos antígenos distintos es capaz de reconocer. Sin embargo, su medición es difícil pues no todos se presentan en muestras sanguíneas, y más aún, aunque tengamos a los receptores de células T, no es fácil saber qué antígeno reconocerán. Pero sí podemos suponer que receptores de células T con secuencias similares reaccionarían frente a las mismas moléculas externas. Proponemos entonces un modelo basado en los compresores de datos, que son capaces de reconocer patrones en cadenas de texto (cadenas de aminoácidos), que intentar´an, dado un conjunto de receptores de células T, estimar su diversidad basado en su composición estructural (sus secuencias de aminoácidos), y a su vez, a cuántos antígenos distintos reconocen. Mejoraremos luego dicho modelo, que llamaremos CompreScore, agregando la noci´on de similitud entre aminoácidos provista por las matrices BLOSUM, que proveer más información a los compresores a la hora de encontrar patrones y obtener información. Por último, probaremos nuestro modelo CompreScore frente a pacientes, y veremos que genera una nueva métrica de diversidad, independiente de las ya conocidas como Shannon o Simpson, y más aún, es también capaz de brindar información en otras dimensiones del paciente, como es su rango etario. Palabras claves: receptores de células T, sistema inmune, diversidad, compresores de datos, BLOSUM.T-cell repertoire diversity in the human body is a proper way to know how efficient it is, since it allows us to know how many antigens it is able to identify. However, measuring this diversity is not an easy task since not all T-cells are present on blood samples, and even wrose, even if we could access all available T-cells, it is not possible to know to which antigen they will react to. But we can assume that T-cell receptors with similar structure will match against the same molecules. We propose, then, a new model based on data compression, which is able to recognize patterns in data strings (amino acids chains). Our model will try, given a set of T-cell receptors, estimate its diversity based on their structural composition, and, at the same time, how many different antigen they can recognize. We will then improve this model, that we will call CompreScore, adding the notion of similarity between amino acids, given by BLOSUM matrix, which will provide our compressors with more useful information to find patterns. At last, we will try CompreScore against patients’ blood samples, and we will see it generates a new diversity metric, independent from the ones we already know such as Shannon and Simpson, Furthermore, our model is also able to give new information from other dimension, such as the patients’ age range based on its T-cell diversity.Fil: Tarantino, Patricio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesLanzarotti, Esteban Omar2019info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000609_Tarantinospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:41Zseminario:seminario_nCOM000609_TarantinoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:42.042Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Compresores de datos como estimadores de diversidad en repertorios de células T
title Compresores de datos como estimadores de diversidad en repertorios de células T
spellingShingle Compresores de datos como estimadores de diversidad en repertorios de células T
Tarantino, Patricio
RECEPTORES DE CELULAS T
SISTEMA INMUNE
DIVERSIDAD
COMPRESORES DE DATOS
BLOSUM
T-CELL REPERTOIRE DIVERSITY
IMMUNE SYSTEM
DIVERSITY
DATA COMPRESSION
BLOSUM
title_short Compresores de datos como estimadores de diversidad en repertorios de células T
title_full Compresores de datos como estimadores de diversidad en repertorios de células T
title_fullStr Compresores de datos como estimadores de diversidad en repertorios de células T
title_full_unstemmed Compresores de datos como estimadores de diversidad en repertorios de células T
title_sort Compresores de datos como estimadores de diversidad en repertorios de células T
dc.creator.none.fl_str_mv Tarantino, Patricio
author Tarantino, Patricio
author_facet Tarantino, Patricio
author_role author
dc.contributor.none.fl_str_mv Lanzarotti, Esteban Omar
dc.subject.none.fl_str_mv RECEPTORES DE CELULAS T
SISTEMA INMUNE
DIVERSIDAD
COMPRESORES DE DATOS
BLOSUM
T-CELL REPERTOIRE DIVERSITY
IMMUNE SYSTEM
DIVERSITY
DATA COMPRESSION
BLOSUM
topic RECEPTORES DE CELULAS T
SISTEMA INMUNE
DIVERSIDAD
COMPRESORES DE DATOS
BLOSUM
T-CELL REPERTOIRE DIVERSITY
IMMUNE SYSTEM
DIVERSITY
DATA COMPRESSION
BLOSUM
dc.description.none.fl_txt_mv La diversidad de receptores de células T presentes en el cuerpo humano es una forma de saber la eficiencia del mismo, ya que nos permite saber a cuántos antígenos distintos es capaz de reconocer. Sin embargo, su medición es difícil pues no todos se presentan en muestras sanguíneas, y más aún, aunque tengamos a los receptores de células T, no es fácil saber qué antígeno reconocerán. Pero sí podemos suponer que receptores de células T con secuencias similares reaccionarían frente a las mismas moléculas externas. Proponemos entonces un modelo basado en los compresores de datos, que son capaces de reconocer patrones en cadenas de texto (cadenas de aminoácidos), que intentar´an, dado un conjunto de receptores de células T, estimar su diversidad basado en su composición estructural (sus secuencias de aminoácidos), y a su vez, a cuántos antígenos distintos reconocen. Mejoraremos luego dicho modelo, que llamaremos CompreScore, agregando la noci´on de similitud entre aminoácidos provista por las matrices BLOSUM, que proveer más información a los compresores a la hora de encontrar patrones y obtener información. Por último, probaremos nuestro modelo CompreScore frente a pacientes, y veremos que genera una nueva métrica de diversidad, independiente de las ya conocidas como Shannon o Simpson, y más aún, es también capaz de brindar información en otras dimensiones del paciente, como es su rango etario. Palabras claves: receptores de células T, sistema inmune, diversidad, compresores de datos, BLOSUM.
T-cell repertoire diversity in the human body is a proper way to know how efficient it is, since it allows us to know how many antigens it is able to identify. However, measuring this diversity is not an easy task since not all T-cells are present on blood samples, and even wrose, even if we could access all available T-cells, it is not possible to know to which antigen they will react to. But we can assume that T-cell receptors with similar structure will match against the same molecules. We propose, then, a new model based on data compression, which is able to recognize patterns in data strings (amino acids chains). Our model will try, given a set of T-cell receptors, estimate its diversity based on their structural composition, and, at the same time, how many different antigen they can recognize. We will then improve this model, that we will call CompreScore, adding the notion of similarity between amino acids, given by BLOSUM matrix, which will provide our compressors with more useful information to find patterns. At last, we will try CompreScore against patients’ blood samples, and we will see it generates a new diversity metric, independent from the ones we already know such as Shannon and Simpson, Furthermore, our model is also able to give new information from other dimension, such as the patients’ age range based on its T-cell diversity.
Fil: Tarantino, Patricio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description La diversidad de receptores de células T presentes en el cuerpo humano es una forma de saber la eficiencia del mismo, ya que nos permite saber a cuántos antígenos distintos es capaz de reconocer. Sin embargo, su medición es difícil pues no todos se presentan en muestras sanguíneas, y más aún, aunque tengamos a los receptores de células T, no es fácil saber qué antígeno reconocerán. Pero sí podemos suponer que receptores de células T con secuencias similares reaccionarían frente a las mismas moléculas externas. Proponemos entonces un modelo basado en los compresores de datos, que son capaces de reconocer patrones en cadenas de texto (cadenas de aminoácidos), que intentar´an, dado un conjunto de receptores de células T, estimar su diversidad basado en su composición estructural (sus secuencias de aminoácidos), y a su vez, a cuántos antígenos distintos reconocen. Mejoraremos luego dicho modelo, que llamaremos CompreScore, agregando la noci´on de similitud entre aminoácidos provista por las matrices BLOSUM, que proveer más información a los compresores a la hora de encontrar patrones y obtener información. Por último, probaremos nuestro modelo CompreScore frente a pacientes, y veremos que genera una nueva métrica de diversidad, independiente de las ya conocidas como Shannon o Simpson, y más aún, es también capaz de brindar información en otras dimensiones del paciente, como es su rango etario. Palabras claves: receptores de células T, sistema inmune, diversidad, compresores de datos, BLOSUM.
publishDate 2019
dc.date.none.fl_str_mv 2019
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000609_Tarantino
url https://hdl.handle.net/20.500.12110/seminario_nCOM000609_Tarantino
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618757994971136
score 13.070432