Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning
- Autores
- Barros, Miguel Ángel
- Año de publicación
- 2023
- Idioma
- español castellano
- Tipo de recurso
- tesis de maestría
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Traglia, German M.
Iriarte, Andrés - Descripción
- Las secuencias de inserción (IS) son elementos genéticos móviles que tienen la capacidad de desplazarse desde una determinada región del genoma hacia otra. Las IS son una fuente de variabilidad genética que podrían brindar rasgos adaptativos a distintas especies bacterianas, por ejemplo: resistencia antibiótica. Sin embargo, la identificación de las IS no es una tarea simple dado los rasgos genéticos variables entre los distintos tipos existentes. El objetivo del presente trabajo fue desarrollar un software basado en algoritmos de aprendizaje automatizado que permita identificar IS sobre diferentes especies de genomas bacterianos. Para lo cual, para entrenar los diferentes algoritmos de clasificación, se trabajó con un dataset inicial compuesto por 8.223 secuencias aminoacídicas de IS y 8.223 secuencias aminoacídicas pertenecientes a otro tipo de estructura proteica (las cuales se denominaron non-IS). Las primeras se obtuvieron de bases de datos específicas de IS, como ISFinder. En tanto que el resto de las secuencias fueron descargadas de la base PDB, Protein Data Bank. Los clasificadores evaluados fueron seis: Regresión Logística, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest y Light Gradient Boosting Machine (LGBM). Para validar el rendimiento del modelo, se incluyó una etapa adicional, validación, en la cual se ejecutaron a los algoritmos sobre datos que a los que dichos clasificadores no habían sido expuestos con anterioridad. Estos datos de validación correspondieron a cinco genomas bacterianos de referencia: Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. El clasificador que mostró el mejor rendimiento fue XGBoost, el cual obtuvo valores de 93.9% en Sensitividad, 94.1% en Especificidad y 94% en Accuracy en la etapa de testing, demandando 15 segundos de tiempo de cómputo en un ordenador portátil. El posterior análisis, mediante BLAST, sobre los falsos positivos producidos durante la clasificación, demostraron que el modelo desarrollado fue capaz de identificar nuevas IS con un elevado nivel de precisión.
Insertion sequences (IS) are genetic elements capable to move itself from a certain DNA region to another one. ISs are considered as a source of genetic variability that provides adaptative features to different bacterial species, such us antibiotic resentence, among others. Nevertheless, IS identification is not a simple process due to the high genetic variability among different types of these genetic elements The main goal of this study was to develop a software based on machine learning allowing the identification of IS on different species of bacterial genomes. To accomplish that task, an initial dataset composed of 8,223 amino acid sequences belonging to IS (retrieved from IS-Finder repository) and 8,223 amino acid sequences from another type of protein structure (which were called non-IS) was utilized to train the different classifiers. Six classifiers were evaluated: Logistic Regression, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest, and Light Gradient Boosting Machine (LGBM). To validate the performance of the model, an additional stage was included referred as validation. Along this phase, the pull of trained classified was executed on new datasets where those algorithms had not been previously exposed. These new datasets consisted five in bacterial aminoacidic sequences from reference organisms. Validation datasets come from Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. The classifier that showed the best performance was XGBoost, which obtained values of 93.9% in Sensitivity, 94.1% in Specificity and 94% in Accuracy in the testing stage, demanding 15 seconds of computing time on a laptop. The subsequent analysis, using BLAST, on the false positives produced during the classification, demonstrated that the developed model was capable to detect new IS with a high level of precision.
Fil: Barros, Miguel Ángel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- tesis:tesis_n7424_Barros
Ver los metadatos del registro completo
id |
BDUBAFCEN_95a203aa08ce27413ada7bfc02ecff9a |
---|---|
oai_identifier_str |
tesis:tesis_n7424_Barros |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learningInsertion sequence prediction on bacterial genomes via machine learning algorithmsBarros, Miguel ÁngelLas secuencias de inserción (IS) son elementos genéticos móviles que tienen la capacidad de desplazarse desde una determinada región del genoma hacia otra. Las IS son una fuente de variabilidad genética que podrían brindar rasgos adaptativos a distintas especies bacterianas, por ejemplo: resistencia antibiótica. Sin embargo, la identificación de las IS no es una tarea simple dado los rasgos genéticos variables entre los distintos tipos existentes. El objetivo del presente trabajo fue desarrollar un software basado en algoritmos de aprendizaje automatizado que permita identificar IS sobre diferentes especies de genomas bacterianos. Para lo cual, para entrenar los diferentes algoritmos de clasificación, se trabajó con un dataset inicial compuesto por 8.223 secuencias aminoacídicas de IS y 8.223 secuencias aminoacídicas pertenecientes a otro tipo de estructura proteica (las cuales se denominaron non-IS). Las primeras se obtuvieron de bases de datos específicas de IS, como ISFinder. En tanto que el resto de las secuencias fueron descargadas de la base PDB, Protein Data Bank. Los clasificadores evaluados fueron seis: Regresión Logística, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest y Light Gradient Boosting Machine (LGBM). Para validar el rendimiento del modelo, se incluyó una etapa adicional, validación, en la cual se ejecutaron a los algoritmos sobre datos que a los que dichos clasificadores no habían sido expuestos con anterioridad. Estos datos de validación correspondieron a cinco genomas bacterianos de referencia: Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. El clasificador que mostró el mejor rendimiento fue XGBoost, el cual obtuvo valores de 93.9% en Sensitividad, 94.1% en Especificidad y 94% en Accuracy en la etapa de testing, demandando 15 segundos de tiempo de cómputo en un ordenador portátil. El posterior análisis, mediante BLAST, sobre los falsos positivos producidos durante la clasificación, demostraron que el modelo desarrollado fue capaz de identificar nuevas IS con un elevado nivel de precisión.Insertion sequences (IS) are genetic elements capable to move itself from a certain DNA region to another one. ISs are considered as a source of genetic variability that provides adaptative features to different bacterial species, such us antibiotic resentence, among others. Nevertheless, IS identification is not a simple process due to the high genetic variability among different types of these genetic elements The main goal of this study was to develop a software based on machine learning allowing the identification of IS on different species of bacterial genomes. To accomplish that task, an initial dataset composed of 8,223 amino acid sequences belonging to IS (retrieved from IS-Finder repository) and 8,223 amino acid sequences from another type of protein structure (which were called non-IS) was utilized to train the different classifiers. Six classifiers were evaluated: Logistic Regression, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest, and Light Gradient Boosting Machine (LGBM). To validate the performance of the model, an additional stage was included referred as validation. Along this phase, the pull of trained classified was executed on new datasets where those algorithms had not been previously exposed. These new datasets consisted five in bacterial aminoacidic sequences from reference organisms. Validation datasets come from Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. The classifier that showed the best performance was XGBoost, which obtained values of 93.9% in Sensitivity, 94.1% in Specificity and 94% in Accuracy in the testing stage, demanding 15 seconds of computing time on a laptop. The subsequent analysis, using BLAST, on the false positives produced during the classification, demonstrated that the developed model was capable to detect new IS with a high level of precision.Fil: Barros, Miguel Ángel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesTraglia, German M.Iriarte, Andrés2023-07-25info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n7424_Barrosspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:41:57Ztesis:tesis_n7424_BarrosInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:41:58.421Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning Insertion sequence prediction on bacterial genomes via machine learning algorithms |
title |
Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning |
spellingShingle |
Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning Barros, Miguel Ángel |
title_short |
Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning |
title_full |
Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning |
title_fullStr |
Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning |
title_full_unstemmed |
Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning |
title_sort |
Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning |
dc.creator.none.fl_str_mv |
Barros, Miguel Ángel |
author |
Barros, Miguel Ángel |
author_facet |
Barros, Miguel Ángel |
author_role |
author |
dc.contributor.none.fl_str_mv |
Traglia, German M. Iriarte, Andrés |
dc.description.none.fl_txt_mv |
Las secuencias de inserción (IS) son elementos genéticos móviles que tienen la capacidad de desplazarse desde una determinada región del genoma hacia otra. Las IS son una fuente de variabilidad genética que podrían brindar rasgos adaptativos a distintas especies bacterianas, por ejemplo: resistencia antibiótica. Sin embargo, la identificación de las IS no es una tarea simple dado los rasgos genéticos variables entre los distintos tipos existentes. El objetivo del presente trabajo fue desarrollar un software basado en algoritmos de aprendizaje automatizado que permita identificar IS sobre diferentes especies de genomas bacterianos. Para lo cual, para entrenar los diferentes algoritmos de clasificación, se trabajó con un dataset inicial compuesto por 8.223 secuencias aminoacídicas de IS y 8.223 secuencias aminoacídicas pertenecientes a otro tipo de estructura proteica (las cuales se denominaron non-IS). Las primeras se obtuvieron de bases de datos específicas de IS, como ISFinder. En tanto que el resto de las secuencias fueron descargadas de la base PDB, Protein Data Bank. Los clasificadores evaluados fueron seis: Regresión Logística, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest y Light Gradient Boosting Machine (LGBM). Para validar el rendimiento del modelo, se incluyó una etapa adicional, validación, en la cual se ejecutaron a los algoritmos sobre datos que a los que dichos clasificadores no habían sido expuestos con anterioridad. Estos datos de validación correspondieron a cinco genomas bacterianos de referencia: Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. El clasificador que mostró el mejor rendimiento fue XGBoost, el cual obtuvo valores de 93.9% en Sensitividad, 94.1% en Especificidad y 94% en Accuracy en la etapa de testing, demandando 15 segundos de tiempo de cómputo en un ordenador portátil. El posterior análisis, mediante BLAST, sobre los falsos positivos producidos durante la clasificación, demostraron que el modelo desarrollado fue capaz de identificar nuevas IS con un elevado nivel de precisión. Insertion sequences (IS) are genetic elements capable to move itself from a certain DNA region to another one. ISs are considered as a source of genetic variability that provides adaptative features to different bacterial species, such us antibiotic resentence, among others. Nevertheless, IS identification is not a simple process due to the high genetic variability among different types of these genetic elements The main goal of this study was to develop a software based on machine learning allowing the identification of IS on different species of bacterial genomes. To accomplish that task, an initial dataset composed of 8,223 amino acid sequences belonging to IS (retrieved from IS-Finder repository) and 8,223 amino acid sequences from another type of protein structure (which were called non-IS) was utilized to train the different classifiers. Six classifiers were evaluated: Logistic Regression, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest, and Light Gradient Boosting Machine (LGBM). To validate the performance of the model, an additional stage was included referred as validation. Along this phase, the pull of trained classified was executed on new datasets where those algorithms had not been previously exposed. These new datasets consisted five in bacterial aminoacidic sequences from reference organisms. Validation datasets come from Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. The classifier that showed the best performance was XGBoost, which obtained values of 93.9% in Sensitivity, 94.1% in Specificity and 94% in Accuracy in the testing stage, demanding 15 seconds of computing time on a laptop. The subsequent analysis, using BLAST, on the false positives produced during the classification, demonstrated that the developed model was capable to detect new IS with a high level of precision. Fil: Barros, Miguel Ángel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
Las secuencias de inserción (IS) son elementos genéticos móviles que tienen la capacidad de desplazarse desde una determinada región del genoma hacia otra. Las IS son una fuente de variabilidad genética que podrían brindar rasgos adaptativos a distintas especies bacterianas, por ejemplo: resistencia antibiótica. Sin embargo, la identificación de las IS no es una tarea simple dado los rasgos genéticos variables entre los distintos tipos existentes. El objetivo del presente trabajo fue desarrollar un software basado en algoritmos de aprendizaje automatizado que permita identificar IS sobre diferentes especies de genomas bacterianos. Para lo cual, para entrenar los diferentes algoritmos de clasificación, se trabajó con un dataset inicial compuesto por 8.223 secuencias aminoacídicas de IS y 8.223 secuencias aminoacídicas pertenecientes a otro tipo de estructura proteica (las cuales se denominaron non-IS). Las primeras se obtuvieron de bases de datos específicas de IS, como ISFinder. En tanto que el resto de las secuencias fueron descargadas de la base PDB, Protein Data Bank. Los clasificadores evaluados fueron seis: Regresión Logística, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest y Light Gradient Boosting Machine (LGBM). Para validar el rendimiento del modelo, se incluyó una etapa adicional, validación, en la cual se ejecutaron a los algoritmos sobre datos que a los que dichos clasificadores no habían sido expuestos con anterioridad. Estos datos de validación correspondieron a cinco genomas bacterianos de referencia: Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. El clasificador que mostró el mejor rendimiento fue XGBoost, el cual obtuvo valores de 93.9% en Sensitividad, 94.1% en Especificidad y 94% en Accuracy en la etapa de testing, demandando 15 segundos de tiempo de cómputo en un ordenador portátil. El posterior análisis, mediante BLAST, sobre los falsos positivos producidos durante la clasificación, demostraron que el modelo desarrollado fue capaz de identificar nuevas IS con un elevado nivel de precisión. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-07-25 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/masterThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_bdcc info:ar-repo/semantics/tesisDeMaestria |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/tesis_n7424_Barros |
url |
https://hdl.handle.net/20.500.12110/tesis_n7424_Barros |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1844618715936587776 |
score |
13.070432 |