Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning

Autores
Barros, Miguel Ángel
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
tesis de maestría
Estado
versión publicada
Colaborador/a o director/a de tesis
Traglia, German M.
Iriarte, Andrés
Descripción
Las secuencias de inserción (IS) son elementos genéticos móviles que tienen la capacidad de desplazarse desde una determinada región del genoma hacia otra. Las IS son una fuente de variabilidad genética que podrían brindar rasgos adaptativos a distintas especies bacterianas, por ejemplo: resistencia antibiótica. Sin embargo, la identificación de las IS no es una tarea simple dado los rasgos genéticos variables entre los distintos tipos existentes. El objetivo del presente trabajo fue desarrollar un software basado en algoritmos de aprendizaje automatizado que permita identificar IS sobre diferentes especies de genomas bacterianos. Para lo cual, para entrenar los diferentes algoritmos de clasificación, se trabajó con un dataset inicial compuesto por 8.223 secuencias aminoacídicas de IS y 8.223 secuencias aminoacídicas pertenecientes a otro tipo de estructura proteica (las cuales se denominaron non-IS). Las primeras se obtuvieron de bases de datos específicas de IS, como ISFinder. En tanto que el resto de las secuencias fueron descargadas de la base PDB, Protein Data Bank. Los clasificadores evaluados fueron seis: Regresión Logística, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest y Light Gradient Boosting Machine (LGBM). Para validar el rendimiento del modelo, se incluyó una etapa adicional, validación, en la cual se ejecutaron a los algoritmos sobre datos que a los que dichos clasificadores no habían sido expuestos con anterioridad. Estos datos de validación correspondieron a cinco genomas bacterianos de referencia: Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. El clasificador que mostró el mejor rendimiento fue XGBoost, el cual obtuvo valores de 93.9% en Sensitividad, 94.1% en Especificidad y 94% en Accuracy en la etapa de testing, demandando 15 segundos de tiempo de cómputo en un ordenador portátil. El posterior análisis, mediante BLAST, sobre los falsos positivos producidos durante la clasificación, demostraron que el modelo desarrollado fue capaz de identificar nuevas IS con un elevado nivel de precisión.
Insertion sequences (IS) are genetic elements capable to move itself from a certain DNA region to another one. ISs are considered as a source of genetic variability that provides adaptative features to different bacterial species, such us antibiotic resentence, among others. Nevertheless, IS identification is not a simple process due to the high genetic variability among different types of these genetic elements The main goal of this study was to develop a software based on machine learning allowing the identification of IS on different species of bacterial genomes. To accomplish that task, an initial dataset composed of 8,223 amino acid sequences belonging to IS (retrieved from IS-Finder repository) and 8,223 amino acid sequences from another type of protein structure (which were called non-IS) was utilized to train the different classifiers. Six classifiers were evaluated: Logistic Regression, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest, and Light Gradient Boosting Machine (LGBM). To validate the performance of the model, an additional stage was included referred as validation. Along this phase, the pull of trained classified was executed on new datasets where those algorithms had not been previously exposed. These new datasets consisted five in bacterial aminoacidic sequences from reference organisms. Validation datasets come from Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. The classifier that showed the best performance was XGBoost, which obtained values of 93.9% in Sensitivity, 94.1% in Specificity and 94% in Accuracy in the testing stage, demanding 15 seconds of computing time on a laptop. The subsequent analysis, using BLAST, on the false positives produced during the classification, demonstrated that the developed model was capable to detect new IS with a high level of precision.
Fil: Barros, Miguel Ángel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
tesis:tesis_n7424_Barros

id BDUBAFCEN_95a203aa08ce27413ada7bfc02ecff9a
oai_identifier_str tesis:tesis_n7424_Barros
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learningInsertion sequence prediction on bacterial genomes via machine learning algorithmsBarros, Miguel ÁngelLas secuencias de inserción (IS) son elementos genéticos móviles que tienen la capacidad de desplazarse desde una determinada región del genoma hacia otra. Las IS son una fuente de variabilidad genética que podrían brindar rasgos adaptativos a distintas especies bacterianas, por ejemplo: resistencia antibiótica. Sin embargo, la identificación de las IS no es una tarea simple dado los rasgos genéticos variables entre los distintos tipos existentes. El objetivo del presente trabajo fue desarrollar un software basado en algoritmos de aprendizaje automatizado que permita identificar IS sobre diferentes especies de genomas bacterianos. Para lo cual, para entrenar los diferentes algoritmos de clasificación, se trabajó con un dataset inicial compuesto por 8.223 secuencias aminoacídicas de IS y 8.223 secuencias aminoacídicas pertenecientes a otro tipo de estructura proteica (las cuales se denominaron non-IS). Las primeras se obtuvieron de bases de datos específicas de IS, como ISFinder. En tanto que el resto de las secuencias fueron descargadas de la base PDB, Protein Data Bank. Los clasificadores evaluados fueron seis: Regresión Logística, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest y Light Gradient Boosting Machine (LGBM). Para validar el rendimiento del modelo, se incluyó una etapa adicional, validación, en la cual se ejecutaron a los algoritmos sobre datos que a los que dichos clasificadores no habían sido expuestos con anterioridad. Estos datos de validación correspondieron a cinco genomas bacterianos de referencia: Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. El clasificador que mostró el mejor rendimiento fue XGBoost, el cual obtuvo valores de 93.9% en Sensitividad, 94.1% en Especificidad y 94% en Accuracy en la etapa de testing, demandando 15 segundos de tiempo de cómputo en un ordenador portátil. El posterior análisis, mediante BLAST, sobre los falsos positivos producidos durante la clasificación, demostraron que el modelo desarrollado fue capaz de identificar nuevas IS con un elevado nivel de precisión.Insertion sequences (IS) are genetic elements capable to move itself from a certain DNA region to another one. ISs are considered as a source of genetic variability that provides adaptative features to different bacterial species, such us antibiotic resentence, among others. Nevertheless, IS identification is not a simple process due to the high genetic variability among different types of these genetic elements The main goal of this study was to develop a software based on machine learning allowing the identification of IS on different species of bacterial genomes. To accomplish that task, an initial dataset composed of 8,223 amino acid sequences belonging to IS (retrieved from IS-Finder repository) and 8,223 amino acid sequences from another type of protein structure (which were called non-IS) was utilized to train the different classifiers. Six classifiers were evaluated: Logistic Regression, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest, and Light Gradient Boosting Machine (LGBM). To validate the performance of the model, an additional stage was included referred as validation. Along this phase, the pull of trained classified was executed on new datasets where those algorithms had not been previously exposed. These new datasets consisted five in bacterial aminoacidic sequences from reference organisms. Validation datasets come from Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. The classifier that showed the best performance was XGBoost, which obtained values of 93.9% in Sensitivity, 94.1% in Specificity and 94% in Accuracy in the testing stage, demanding 15 seconds of computing time on a laptop. The subsequent analysis, using BLAST, on the false positives produced during the classification, demonstrated that the developed model was capable to detect new IS with a high level of precision.Fil: Barros, Miguel Ángel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesTraglia, German M.Iriarte, Andrés2023-07-25info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n7424_Barrosspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:41:57Ztesis:tesis_n7424_BarrosInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:41:58.421Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning
Insertion sequence prediction on bacterial genomes via machine learning algorithms
title Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning
spellingShingle Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning
Barros, Miguel Ángel
title_short Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning
title_full Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning
title_fullStr Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning
title_full_unstemmed Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning
title_sort Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning
dc.creator.none.fl_str_mv Barros, Miguel Ángel
author Barros, Miguel Ángel
author_facet Barros, Miguel Ángel
author_role author
dc.contributor.none.fl_str_mv Traglia, German M.
Iriarte, Andrés
dc.description.none.fl_txt_mv Las secuencias de inserción (IS) son elementos genéticos móviles que tienen la capacidad de desplazarse desde una determinada región del genoma hacia otra. Las IS son una fuente de variabilidad genética que podrían brindar rasgos adaptativos a distintas especies bacterianas, por ejemplo: resistencia antibiótica. Sin embargo, la identificación de las IS no es una tarea simple dado los rasgos genéticos variables entre los distintos tipos existentes. El objetivo del presente trabajo fue desarrollar un software basado en algoritmos de aprendizaje automatizado que permita identificar IS sobre diferentes especies de genomas bacterianos. Para lo cual, para entrenar los diferentes algoritmos de clasificación, se trabajó con un dataset inicial compuesto por 8.223 secuencias aminoacídicas de IS y 8.223 secuencias aminoacídicas pertenecientes a otro tipo de estructura proteica (las cuales se denominaron non-IS). Las primeras se obtuvieron de bases de datos específicas de IS, como ISFinder. En tanto que el resto de las secuencias fueron descargadas de la base PDB, Protein Data Bank. Los clasificadores evaluados fueron seis: Regresión Logística, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest y Light Gradient Boosting Machine (LGBM). Para validar el rendimiento del modelo, se incluyó una etapa adicional, validación, en la cual se ejecutaron a los algoritmos sobre datos que a los que dichos clasificadores no habían sido expuestos con anterioridad. Estos datos de validación correspondieron a cinco genomas bacterianos de referencia: Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. El clasificador que mostró el mejor rendimiento fue XGBoost, el cual obtuvo valores de 93.9% en Sensitividad, 94.1% en Especificidad y 94% en Accuracy en la etapa de testing, demandando 15 segundos de tiempo de cómputo en un ordenador portátil. El posterior análisis, mediante BLAST, sobre los falsos positivos producidos durante la clasificación, demostraron que el modelo desarrollado fue capaz de identificar nuevas IS con un elevado nivel de precisión.
Insertion sequences (IS) are genetic elements capable to move itself from a certain DNA region to another one. ISs are considered as a source of genetic variability that provides adaptative features to different bacterial species, such us antibiotic resentence, among others. Nevertheless, IS identification is not a simple process due to the high genetic variability among different types of these genetic elements The main goal of this study was to develop a software based on machine learning allowing the identification of IS on different species of bacterial genomes. To accomplish that task, an initial dataset composed of 8,223 amino acid sequences belonging to IS (retrieved from IS-Finder repository) and 8,223 amino acid sequences from another type of protein structure (which were called non-IS) was utilized to train the different classifiers. Six classifiers were evaluated: Logistic Regression, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest, and Light Gradient Boosting Machine (LGBM). To validate the performance of the model, an additional stage was included referred as validation. Along this phase, the pull of trained classified was executed on new datasets where those algorithms had not been previously exposed. These new datasets consisted five in bacterial aminoacidic sequences from reference organisms. Validation datasets come from Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. The classifier that showed the best performance was XGBoost, which obtained values of 93.9% in Sensitivity, 94.1% in Specificity and 94% in Accuracy in the testing stage, demanding 15 seconds of computing time on a laptop. The subsequent analysis, using BLAST, on the false positives produced during the classification, demonstrated that the developed model was capable to detect new IS with a high level of precision.
Fil: Barros, Miguel Ángel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Las secuencias de inserción (IS) son elementos genéticos móviles que tienen la capacidad de desplazarse desde una determinada región del genoma hacia otra. Las IS son una fuente de variabilidad genética que podrían brindar rasgos adaptativos a distintas especies bacterianas, por ejemplo: resistencia antibiótica. Sin embargo, la identificación de las IS no es una tarea simple dado los rasgos genéticos variables entre los distintos tipos existentes. El objetivo del presente trabajo fue desarrollar un software basado en algoritmos de aprendizaje automatizado que permita identificar IS sobre diferentes especies de genomas bacterianos. Para lo cual, para entrenar los diferentes algoritmos de clasificación, se trabajó con un dataset inicial compuesto por 8.223 secuencias aminoacídicas de IS y 8.223 secuencias aminoacídicas pertenecientes a otro tipo de estructura proteica (las cuales se denominaron non-IS). Las primeras se obtuvieron de bases de datos específicas de IS, como ISFinder. En tanto que el resto de las secuencias fueron descargadas de la base PDB, Protein Data Bank. Los clasificadores evaluados fueron seis: Regresión Logística, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest y Light Gradient Boosting Machine (LGBM). Para validar el rendimiento del modelo, se incluyó una etapa adicional, validación, en la cual se ejecutaron a los algoritmos sobre datos que a los que dichos clasificadores no habían sido expuestos con anterioridad. Estos datos de validación correspondieron a cinco genomas bacterianos de referencia: Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. El clasificador que mostró el mejor rendimiento fue XGBoost, el cual obtuvo valores de 93.9% en Sensitividad, 94.1% en Especificidad y 94% en Accuracy en la etapa de testing, demandando 15 segundos de tiempo de cómputo en un ordenador portátil. El posterior análisis, mediante BLAST, sobre los falsos positivos producidos durante la clasificación, demostraron que el modelo desarrollado fue capaz de identificar nuevas IS con un elevado nivel de precisión.
publishDate 2023
dc.date.none.fl_str_mv 2023-07-25
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_bdcc
info:ar-repo/semantics/tesisDeMaestria
format masterThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/tesis_n7424_Barros
url https://hdl.handle.net/20.500.12110/tesis_n7424_Barros
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618715936587776
score 13.070432