Predicción de patogenicidad en SNPs usando aprendizaje automático
- Autores
- Langberg, Martín Ezequiel
- Año de publicación
- 2019
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Berenstein, Ariel José
Turjanski, Pablo Guillermo - Descripción
- El estudio de enfermedades de origen genético ha tenido un desarrollo constante y acelerado en los últimos años en parte gracias a nuevas técnicas de secuenciación del genoma, que permiten el análisis del material genético de pacientes a nivel de exomas y genomas completos con costos cada vez más reducidos y accesibles. En este contexto, resulta de gran importancia la capacidad de identificar polimorfismos de un solo nucleótido (SNPs, por sus siglas en inglés) causales de enfermedades humanas y diferenciarlos respecto de aquellos con efecto inocuo para el organismo. Dada la gran cantidad de SNPs presentes en el genoma humano, esta línea de investigación ha cobrado un marcado interés por parte de la comunidad científica en general, motivando esfuerzos interdisciplinarios, en particular de trabajos que subyacen en la frontera de las ciencias de la computación y las ciencias biológicas. En el presente trabajo, mediante el uso de técnicas de aprendizaje automático supervisado convencionales hemos elaborado un método de predicción de patogenicidad para SNPs en regiones codificantes que resulten en un cambio de aminoácido, normalmente referidas como SNPs con cambio de sentido. Nuestro modelo de clasificación binaria, se basa en las fuentes de Clinvar y Humsavar para clasificar el efecto patogénico de SNPs conocidos, y en distintas fuentes de información para extraer variables que caractericen los SNPs desde distintas aristas biológicas. En particular hemos explorado la importancia relativa y el poder predictivo de variables que den a cuenta del cambio estructural producido por el cambio de aminoácido (variación de energía, superficie de exposición del aminoácido, entre otras), variables de tipo físico-químico (hidrofobicidad, aromaticidad, polaridad, etc) y de conservación a nivel genómico (PhyloP y PhastCons, por ejemplo). Evaluamos la importancia relativa de cada una de estas dimensiones aplicando técnicas clásicas de aprendizaje automático supervisado: Regresión Logística, Support Vector Machines y Random Forest. Finalmente, evaluamos la combinación de las variables con una técnica más avanzada de aprendizaje automático, XGBoost, con el que alcanzamos un AUC de 0.90.
Fil: Langberg, Martín Ezequiel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
APRENDIZAJE AUTOMATICO
BIOINFORMATICA
SNPS
PATOGENICIDAD
GENETICA - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000625_Langberg
Ver los metadatos del registro completo
id |
BDUBAFCEN_ada6afa38292a9cf8f8d85e138868db1 |
---|---|
oai_identifier_str |
seminario:seminario_nCOM000625_Langberg |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Predicción de patogenicidad en SNPs usando aprendizaje automáticoLangberg, Martín EzequielAPRENDIZAJE AUTOMATICOBIOINFORMATICASNPSPATOGENICIDADGENETICAEl estudio de enfermedades de origen genético ha tenido un desarrollo constante y acelerado en los últimos años en parte gracias a nuevas técnicas de secuenciación del genoma, que permiten el análisis del material genético de pacientes a nivel de exomas y genomas completos con costos cada vez más reducidos y accesibles. En este contexto, resulta de gran importancia la capacidad de identificar polimorfismos de un solo nucleótido (SNPs, por sus siglas en inglés) causales de enfermedades humanas y diferenciarlos respecto de aquellos con efecto inocuo para el organismo. Dada la gran cantidad de SNPs presentes en el genoma humano, esta línea de investigación ha cobrado un marcado interés por parte de la comunidad científica en general, motivando esfuerzos interdisciplinarios, en particular de trabajos que subyacen en la frontera de las ciencias de la computación y las ciencias biológicas. En el presente trabajo, mediante el uso de técnicas de aprendizaje automático supervisado convencionales hemos elaborado un método de predicción de patogenicidad para SNPs en regiones codificantes que resulten en un cambio de aminoácido, normalmente referidas como SNPs con cambio de sentido. Nuestro modelo de clasificación binaria, se basa en las fuentes de Clinvar y Humsavar para clasificar el efecto patogénico de SNPs conocidos, y en distintas fuentes de información para extraer variables que caractericen los SNPs desde distintas aristas biológicas. En particular hemos explorado la importancia relativa y el poder predictivo de variables que den a cuenta del cambio estructural producido por el cambio de aminoácido (variación de energía, superficie de exposición del aminoácido, entre otras), variables de tipo físico-químico (hidrofobicidad, aromaticidad, polaridad, etc) y de conservación a nivel genómico (PhyloP y PhastCons, por ejemplo). Evaluamos la importancia relativa de cada una de estas dimensiones aplicando técnicas clásicas de aprendizaje automático supervisado: Regresión Logística, Support Vector Machines y Random Forest. Finalmente, evaluamos la combinación de las variables con una técnica más avanzada de aprendizaje automático, XGBoost, con el que alcanzamos un AUC de 0.90.Fil: Langberg, Martín Ezequiel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesBerenstein, Ariel JoséTurjanski, Pablo Guillermo2019info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000625_Langbergspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:41Zseminario:seminario_nCOM000625_LangbergInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:42.023Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Predicción de patogenicidad en SNPs usando aprendizaje automático |
title |
Predicción de patogenicidad en SNPs usando aprendizaje automático |
spellingShingle |
Predicción de patogenicidad en SNPs usando aprendizaje automático Langberg, Martín Ezequiel APRENDIZAJE AUTOMATICO BIOINFORMATICA SNPS PATOGENICIDAD GENETICA |
title_short |
Predicción de patogenicidad en SNPs usando aprendizaje automático |
title_full |
Predicción de patogenicidad en SNPs usando aprendizaje automático |
title_fullStr |
Predicción de patogenicidad en SNPs usando aprendizaje automático |
title_full_unstemmed |
Predicción de patogenicidad en SNPs usando aprendizaje automático |
title_sort |
Predicción de patogenicidad en SNPs usando aprendizaje automático |
dc.creator.none.fl_str_mv |
Langberg, Martín Ezequiel |
author |
Langberg, Martín Ezequiel |
author_facet |
Langberg, Martín Ezequiel |
author_role |
author |
dc.contributor.none.fl_str_mv |
Berenstein, Ariel José Turjanski, Pablo Guillermo |
dc.subject.none.fl_str_mv |
APRENDIZAJE AUTOMATICO BIOINFORMATICA SNPS PATOGENICIDAD GENETICA |
topic |
APRENDIZAJE AUTOMATICO BIOINFORMATICA SNPS PATOGENICIDAD GENETICA |
dc.description.none.fl_txt_mv |
El estudio de enfermedades de origen genético ha tenido un desarrollo constante y acelerado en los últimos años en parte gracias a nuevas técnicas de secuenciación del genoma, que permiten el análisis del material genético de pacientes a nivel de exomas y genomas completos con costos cada vez más reducidos y accesibles. En este contexto, resulta de gran importancia la capacidad de identificar polimorfismos de un solo nucleótido (SNPs, por sus siglas en inglés) causales de enfermedades humanas y diferenciarlos respecto de aquellos con efecto inocuo para el organismo. Dada la gran cantidad de SNPs presentes en el genoma humano, esta línea de investigación ha cobrado un marcado interés por parte de la comunidad científica en general, motivando esfuerzos interdisciplinarios, en particular de trabajos que subyacen en la frontera de las ciencias de la computación y las ciencias biológicas. En el presente trabajo, mediante el uso de técnicas de aprendizaje automático supervisado convencionales hemos elaborado un método de predicción de patogenicidad para SNPs en regiones codificantes que resulten en un cambio de aminoácido, normalmente referidas como SNPs con cambio de sentido. Nuestro modelo de clasificación binaria, se basa en las fuentes de Clinvar y Humsavar para clasificar el efecto patogénico de SNPs conocidos, y en distintas fuentes de información para extraer variables que caractericen los SNPs desde distintas aristas biológicas. En particular hemos explorado la importancia relativa y el poder predictivo de variables que den a cuenta del cambio estructural producido por el cambio de aminoácido (variación de energía, superficie de exposición del aminoácido, entre otras), variables de tipo físico-químico (hidrofobicidad, aromaticidad, polaridad, etc) y de conservación a nivel genómico (PhyloP y PhastCons, por ejemplo). Evaluamos la importancia relativa de cada una de estas dimensiones aplicando técnicas clásicas de aprendizaje automático supervisado: Regresión Logística, Support Vector Machines y Random Forest. Finalmente, evaluamos la combinación de las variables con una técnica más avanzada de aprendizaje automático, XGBoost, con el que alcanzamos un AUC de 0.90. Fil: Langberg, Martín Ezequiel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
El estudio de enfermedades de origen genético ha tenido un desarrollo constante y acelerado en los últimos años en parte gracias a nuevas técnicas de secuenciación del genoma, que permiten el análisis del material genético de pacientes a nivel de exomas y genomas completos con costos cada vez más reducidos y accesibles. En este contexto, resulta de gran importancia la capacidad de identificar polimorfismos de un solo nucleótido (SNPs, por sus siglas en inglés) causales de enfermedades humanas y diferenciarlos respecto de aquellos con efecto inocuo para el organismo. Dada la gran cantidad de SNPs presentes en el genoma humano, esta línea de investigación ha cobrado un marcado interés por parte de la comunidad científica en general, motivando esfuerzos interdisciplinarios, en particular de trabajos que subyacen en la frontera de las ciencias de la computación y las ciencias biológicas. En el presente trabajo, mediante el uso de técnicas de aprendizaje automático supervisado convencionales hemos elaborado un método de predicción de patogenicidad para SNPs en regiones codificantes que resulten en un cambio de aminoácido, normalmente referidas como SNPs con cambio de sentido. Nuestro modelo de clasificación binaria, se basa en las fuentes de Clinvar y Humsavar para clasificar el efecto patogénico de SNPs conocidos, y en distintas fuentes de información para extraer variables que caractericen los SNPs desde distintas aristas biológicas. En particular hemos explorado la importancia relativa y el poder predictivo de variables que den a cuenta del cambio estructural producido por el cambio de aminoácido (variación de energía, superficie de exposición del aminoácido, entre otras), variables de tipo físico-químico (hidrofobicidad, aromaticidad, polaridad, etc) y de conservación a nivel genómico (PhyloP y PhastCons, por ejemplo). Evaluamos la importancia relativa de cada una de estas dimensiones aplicando técnicas clásicas de aprendizaje automático supervisado: Regresión Logística, Support Vector Machines y Random Forest. Finalmente, evaluamos la combinación de las variables con una técnica más avanzada de aprendizaje automático, XGBoost, con el que alcanzamos un AUC de 0.90. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000625_Langberg |
url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000625_Langberg |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1844618757985533952 |
score |
13.070432 |