Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación
- Autores
- Seijo, Jonathan Adrian
- Año de publicación
- 2023
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Ferreiro, Diego Ulises
Turjanski, Pablo Guillermo - Descripción
- Existen ciertas repeticiones de caracteres en secuencias, las repeticiones máximas, que han sido estudiadas para buscar patrones recurrentes que puedan caracterizar a diferentes familias de proteínas a partir de sus secuencias de aminoácidos. Por otra parte, el análisis de reglas de asociación es una técnica de Data Mining utilizada para encontrar, de forma automática, relaciones interesantes entre elementos de una base de datos. En un trabajo previo se vincularon las reglas de asociación con las repeticiones máximas existentes en las secuencias de proteínas de la familia Ankyrin. En el presente trabajo, extendemos dicho análisis para poder involucrar a otras dos familias (TPR y LRR). Encontramos diferencias de órdenes de magnitud entre las cantidades de reglas generadas para estas tres familias de proteínas, que se explican por diferencias observadas en las frecuencias de sus repeticiones máximas. Además, resulta que estas familias no comparten reglas de asociación, debido a que sus conjuntos de repeticiones maximales frecuentes casi no tienen elementos en común. Presentamos algunas optimizaciones temporales y espaciales para el proceso de generación de reglas de asociación (con y sin pérdida de reglas) e investigamos una forma de obtener los mismos conjuntos de reglas a partir de los k-meros de las secuencias pero sin calcular sus repeticiones maximales. Utilizamos una medida, el lift, para analizar la relevancia de las reglas generadas y observamos que resulta insuficiente cuando se aplica al dominio de nuestro problema. Por último, extendemos una herramienta para la visualización de reglas y proteínas (Protein Rule Visualization Tool) para permitir la exploración de datos provenientes de múltiples familias.
Fil: Seijo, Jonathan Adrian. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
FAMILIAS DE PROTEINAS
REPETICIONES MAXIMALES
REGLAS DE ASOCIACION
ALGORITMO APRIORI - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000544_Seijo
Ver los metadatos del registro completo
id |
BDUBAFCEN_09498a99b9e07966709baa2468ac7aef |
---|---|
oai_identifier_str |
seminario:seminario_nCOM000544_Seijo |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociaciónSeijo, Jonathan AdrianFAMILIAS DE PROTEINASREPETICIONES MAXIMALESREGLAS DE ASOCIACIONALGORITMO APRIORIExisten ciertas repeticiones de caracteres en secuencias, las repeticiones máximas, que han sido estudiadas para buscar patrones recurrentes que puedan caracterizar a diferentes familias de proteínas a partir de sus secuencias de aminoácidos. Por otra parte, el análisis de reglas de asociación es una técnica de Data Mining utilizada para encontrar, de forma automática, relaciones interesantes entre elementos de una base de datos. En un trabajo previo se vincularon las reglas de asociación con las repeticiones máximas existentes en las secuencias de proteínas de la familia Ankyrin. En el presente trabajo, extendemos dicho análisis para poder involucrar a otras dos familias (TPR y LRR). Encontramos diferencias de órdenes de magnitud entre las cantidades de reglas generadas para estas tres familias de proteínas, que se explican por diferencias observadas en las frecuencias de sus repeticiones máximas. Además, resulta que estas familias no comparten reglas de asociación, debido a que sus conjuntos de repeticiones maximales frecuentes casi no tienen elementos en común. Presentamos algunas optimizaciones temporales y espaciales para el proceso de generación de reglas de asociación (con y sin pérdida de reglas) e investigamos una forma de obtener los mismos conjuntos de reglas a partir de los k-meros de las secuencias pero sin calcular sus repeticiones maximales. Utilizamos una medida, el lift, para analizar la relevancia de las reglas generadas y observamos que resulta insuficiente cuando se aplica al dominio de nuestro problema. Por último, extendemos una herramienta para la visualización de reglas y proteínas (Protein Rule Visualization Tool) para permitir la exploración de datos provenientes de múltiples familias.Fil: Seijo, Jonathan Adrian. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesFerreiro, Diego UlisesTurjanski, Pablo Guillermo2023info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000544_Seijospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:38Zseminario:seminario_nCOM000544_SeijoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:39.622Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación |
title |
Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación |
spellingShingle |
Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación Seijo, Jonathan Adrian FAMILIAS DE PROTEINAS REPETICIONES MAXIMALES REGLAS DE ASOCIACION ALGORITMO APRIORI |
title_short |
Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación |
title_full |
Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación |
title_fullStr |
Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación |
title_full_unstemmed |
Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación |
title_sort |
Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación |
dc.creator.none.fl_str_mv |
Seijo, Jonathan Adrian |
author |
Seijo, Jonathan Adrian |
author_facet |
Seijo, Jonathan Adrian |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ferreiro, Diego Ulises Turjanski, Pablo Guillermo |
dc.subject.none.fl_str_mv |
FAMILIAS DE PROTEINAS REPETICIONES MAXIMALES REGLAS DE ASOCIACION ALGORITMO APRIORI |
topic |
FAMILIAS DE PROTEINAS REPETICIONES MAXIMALES REGLAS DE ASOCIACION ALGORITMO APRIORI |
dc.description.none.fl_txt_mv |
Existen ciertas repeticiones de caracteres en secuencias, las repeticiones máximas, que han sido estudiadas para buscar patrones recurrentes que puedan caracterizar a diferentes familias de proteínas a partir de sus secuencias de aminoácidos. Por otra parte, el análisis de reglas de asociación es una técnica de Data Mining utilizada para encontrar, de forma automática, relaciones interesantes entre elementos de una base de datos. En un trabajo previo se vincularon las reglas de asociación con las repeticiones máximas existentes en las secuencias de proteínas de la familia Ankyrin. En el presente trabajo, extendemos dicho análisis para poder involucrar a otras dos familias (TPR y LRR). Encontramos diferencias de órdenes de magnitud entre las cantidades de reglas generadas para estas tres familias de proteínas, que se explican por diferencias observadas en las frecuencias de sus repeticiones máximas. Además, resulta que estas familias no comparten reglas de asociación, debido a que sus conjuntos de repeticiones maximales frecuentes casi no tienen elementos en común. Presentamos algunas optimizaciones temporales y espaciales para el proceso de generación de reglas de asociación (con y sin pérdida de reglas) e investigamos una forma de obtener los mismos conjuntos de reglas a partir de los k-meros de las secuencias pero sin calcular sus repeticiones maximales. Utilizamos una medida, el lift, para analizar la relevancia de las reglas generadas y observamos que resulta insuficiente cuando se aplica al dominio de nuestro problema. Por último, extendemos una herramienta para la visualización de reglas y proteínas (Protein Rule Visualization Tool) para permitir la exploración de datos provenientes de múltiples familias. Fil: Seijo, Jonathan Adrian. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
Existen ciertas repeticiones de caracteres en secuencias, las repeticiones máximas, que han sido estudiadas para buscar patrones recurrentes que puedan caracterizar a diferentes familias de proteínas a partir de sus secuencias de aminoácidos. Por otra parte, el análisis de reglas de asociación es una técnica de Data Mining utilizada para encontrar, de forma automática, relaciones interesantes entre elementos de una base de datos. En un trabajo previo se vincularon las reglas de asociación con las repeticiones máximas existentes en las secuencias de proteínas de la familia Ankyrin. En el presente trabajo, extendemos dicho análisis para poder involucrar a otras dos familias (TPR y LRR). Encontramos diferencias de órdenes de magnitud entre las cantidades de reglas generadas para estas tres familias de proteínas, que se explican por diferencias observadas en las frecuencias de sus repeticiones máximas. Además, resulta que estas familias no comparten reglas de asociación, debido a que sus conjuntos de repeticiones maximales frecuentes casi no tienen elementos en común. Presentamos algunas optimizaciones temporales y espaciales para el proceso de generación de reglas de asociación (con y sin pérdida de reglas) e investigamos una forma de obtener los mismos conjuntos de reglas a partir de los k-meros de las secuencias pero sin calcular sus repeticiones maximales. Utilizamos una medida, el lift, para analizar la relevancia de las reglas generadas y observamos que resulta insuficiente cuando se aplica al dominio de nuestro problema. Por último, extendemos una herramienta para la visualización de reglas y proteínas (Protein Rule Visualization Tool) para permitir la exploración de datos provenientes de múltiples familias. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000544_Seijo |
url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000544_Seijo |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1844618756508090368 |
score |
12.891075 |