Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación

Autores
Seijo, Jonathan Adrian
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Ferreiro, Diego Ulises
Turjanski, Pablo Guillermo
Descripción
Existen ciertas repeticiones de caracteres en secuencias, las repeticiones máximas, que han sido estudiadas para buscar patrones recurrentes que puedan caracterizar a diferentes familias de proteínas a partir de sus secuencias de aminoácidos. Por otra parte, el análisis de reglas de asociación es una técnica de Data Mining utilizada para encontrar, de forma automática, relaciones interesantes entre elementos de una base de datos. En un trabajo previo se vincularon las reglas de asociación con las repeticiones máximas existentes en las secuencias de proteínas de la familia Ankyrin. En el presente trabajo, extendemos dicho análisis para poder involucrar a otras dos familias (TPR y LRR). Encontramos diferencias de órdenes de magnitud entre las cantidades de reglas generadas para estas tres familias de proteínas, que se explican por diferencias observadas en las frecuencias de sus repeticiones máximas. Además, resulta que estas familias no comparten reglas de asociación, debido a que sus conjuntos de repeticiones maximales frecuentes casi no tienen elementos en común. Presentamos algunas optimizaciones temporales y espaciales para el proceso de generación de reglas de asociación (con y sin pérdida de reglas) e investigamos una forma de obtener los mismos conjuntos de reglas a partir de los k-meros de las secuencias pero sin calcular sus repeticiones maximales. Utilizamos una medida, el lift, para analizar la relevancia de las reglas generadas y observamos que resulta insuficiente cuando se aplica al dominio de nuestro problema. Por último, extendemos una herramienta para la visualización de reglas y proteínas (Protein Rule Visualization Tool) para permitir la exploración de datos provenientes de múltiples familias.
Fil: Seijo, Jonathan Adrian. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
FAMILIAS DE PROTEINAS
REPETICIONES MAXIMALES
REGLAS DE ASOCIACION
ALGORITMO APRIORI
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000544_Seijo

id BDUBAFCEN_09498a99b9e07966709baa2468ac7aef
oai_identifier_str seminario:seminario_nCOM000544_Seijo
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociaciónSeijo, Jonathan AdrianFAMILIAS DE PROTEINASREPETICIONES MAXIMALESREGLAS DE ASOCIACIONALGORITMO APRIORIExisten ciertas repeticiones de caracteres en secuencias, las repeticiones máximas, que han sido estudiadas para buscar patrones recurrentes que puedan caracterizar a diferentes familias de proteínas a partir de sus secuencias de aminoácidos. Por otra parte, el análisis de reglas de asociación es una técnica de Data Mining utilizada para encontrar, de forma automática, relaciones interesantes entre elementos de una base de datos. En un trabajo previo se vincularon las reglas de asociación con las repeticiones máximas existentes en las secuencias de proteínas de la familia Ankyrin. En el presente trabajo, extendemos dicho análisis para poder involucrar a otras dos familias (TPR y LRR). Encontramos diferencias de órdenes de magnitud entre las cantidades de reglas generadas para estas tres familias de proteínas, que se explican por diferencias observadas en las frecuencias de sus repeticiones máximas. Además, resulta que estas familias no comparten reglas de asociación, debido a que sus conjuntos de repeticiones maximales frecuentes casi no tienen elementos en común. Presentamos algunas optimizaciones temporales y espaciales para el proceso de generación de reglas de asociación (con y sin pérdida de reglas) e investigamos una forma de obtener los mismos conjuntos de reglas a partir de los k-meros de las secuencias pero sin calcular sus repeticiones maximales. Utilizamos una medida, el lift, para analizar la relevancia de las reglas generadas y observamos que resulta insuficiente cuando se aplica al dominio de nuestro problema. Por último, extendemos una herramienta para la visualización de reglas y proteínas (Protein Rule Visualization Tool) para permitir la exploración de datos provenientes de múltiples familias.Fil: Seijo, Jonathan Adrian. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesFerreiro, Diego UlisesTurjanski, Pablo Guillermo2023info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000544_Seijospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:38Zseminario:seminario_nCOM000544_SeijoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:39.622Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación
title Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación
spellingShingle Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación
Seijo, Jonathan Adrian
FAMILIAS DE PROTEINAS
REPETICIONES MAXIMALES
REGLAS DE ASOCIACION
ALGORITMO APRIORI
title_short Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación
title_full Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación
title_fullStr Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación
title_full_unstemmed Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación
title_sort Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación
dc.creator.none.fl_str_mv Seijo, Jonathan Adrian
author Seijo, Jonathan Adrian
author_facet Seijo, Jonathan Adrian
author_role author
dc.contributor.none.fl_str_mv Ferreiro, Diego Ulises
Turjanski, Pablo Guillermo
dc.subject.none.fl_str_mv FAMILIAS DE PROTEINAS
REPETICIONES MAXIMALES
REGLAS DE ASOCIACION
ALGORITMO APRIORI
topic FAMILIAS DE PROTEINAS
REPETICIONES MAXIMALES
REGLAS DE ASOCIACION
ALGORITMO APRIORI
dc.description.none.fl_txt_mv Existen ciertas repeticiones de caracteres en secuencias, las repeticiones máximas, que han sido estudiadas para buscar patrones recurrentes que puedan caracterizar a diferentes familias de proteínas a partir de sus secuencias de aminoácidos. Por otra parte, el análisis de reglas de asociación es una técnica de Data Mining utilizada para encontrar, de forma automática, relaciones interesantes entre elementos de una base de datos. En un trabajo previo se vincularon las reglas de asociación con las repeticiones máximas existentes en las secuencias de proteínas de la familia Ankyrin. En el presente trabajo, extendemos dicho análisis para poder involucrar a otras dos familias (TPR y LRR). Encontramos diferencias de órdenes de magnitud entre las cantidades de reglas generadas para estas tres familias de proteínas, que se explican por diferencias observadas en las frecuencias de sus repeticiones máximas. Además, resulta que estas familias no comparten reglas de asociación, debido a que sus conjuntos de repeticiones maximales frecuentes casi no tienen elementos en común. Presentamos algunas optimizaciones temporales y espaciales para el proceso de generación de reglas de asociación (con y sin pérdida de reglas) e investigamos una forma de obtener los mismos conjuntos de reglas a partir de los k-meros de las secuencias pero sin calcular sus repeticiones maximales. Utilizamos una medida, el lift, para analizar la relevancia de las reglas generadas y observamos que resulta insuficiente cuando se aplica al dominio de nuestro problema. Por último, extendemos una herramienta para la visualización de reglas y proteínas (Protein Rule Visualization Tool) para permitir la exploración de datos provenientes de múltiples familias.
Fil: Seijo, Jonathan Adrian. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Existen ciertas repeticiones de caracteres en secuencias, las repeticiones máximas, que han sido estudiadas para buscar patrones recurrentes que puedan caracterizar a diferentes familias de proteínas a partir de sus secuencias de aminoácidos. Por otra parte, el análisis de reglas de asociación es una técnica de Data Mining utilizada para encontrar, de forma automática, relaciones interesantes entre elementos de una base de datos. En un trabajo previo se vincularon las reglas de asociación con las repeticiones máximas existentes en las secuencias de proteínas de la familia Ankyrin. En el presente trabajo, extendemos dicho análisis para poder involucrar a otras dos familias (TPR y LRR). Encontramos diferencias de órdenes de magnitud entre las cantidades de reglas generadas para estas tres familias de proteínas, que se explican por diferencias observadas en las frecuencias de sus repeticiones máximas. Además, resulta que estas familias no comparten reglas de asociación, debido a que sus conjuntos de repeticiones maximales frecuentes casi no tienen elementos en común. Presentamos algunas optimizaciones temporales y espaciales para el proceso de generación de reglas de asociación (con y sin pérdida de reglas) e investigamos una forma de obtener los mismos conjuntos de reglas a partir de los k-meros de las secuencias pero sin calcular sus repeticiones maximales. Utilizamos una medida, el lift, para analizar la relevancia de las reglas generadas y observamos que resulta insuficiente cuando se aplica al dominio de nuestro problema. Por último, extendemos una herramienta para la visualización de reglas y proteínas (Protein Rule Visualization Tool) para permitir la exploración de datos provenientes de múltiples familias.
publishDate 2023
dc.date.none.fl_str_mv 2023
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000544_Seijo
url https://hdl.handle.net/20.500.12110/seminario_nCOM000544_Seijo
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618756508090368
score 12.891075