Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformática

Autores
Raad, Jonathan
Año de publicación
2021
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión aceptada
Colaborador/a o director/a de tesis
Milone, Diego Humberto
Lucero, Leandro
Tapia, Elizabeth
Carballido, Jéssica
Stegmayer, Georgina
Descripción
Fil: Raad, Jonathan. Universidad Nacional del Litoral. Facultad de ingeniería y Ciencias Hídricas; Argentina.
El aprendizaje maquinal ha tenido un gran desarrollo en los últimos años y ha permitido resolver una gran cantidad de problemas en las más diversas disciplinas, aunque aun quedan grandes desafíos por resolver cuando los datos presentan un alto grado de desbalance de clases o tienen muy pocos datos etiquetados. Un caso particular de aplicación donde se presentan desafíos como estos es en la predicción computacional de secuencias de microARN. Este, también llamado microARN maduro, es una pequeña molécula de ARN no codificante la cual puede regular la expresión de los genes. En los últimos años, se ha desarrollado una gran cantidad de métodos que intentan detectar nuevos microARN utilizando información principalmente de su estructura. El principal inconveniente de estos métodos es que utilizan características basadas principalmente en la estructura del precursor (pre-miARN) sin incluir la información del miARN maduro, que se encuentra codificada en forma secuencial. De esta manera, se pierde información muy valiosa que podría utilizarse para mejorar la predicción de nuevos pre-miARN y disminuir a su vez el número de falsos positivos. Recientemente se propusieron enfoques basados en aprendizaje profundo como un método para la extracción automática de características. Sin embargo, éstos tienen aún importantes limitaciones prácticas cuando deben aplicarse a tareas de predicción real. Para poder permitir la predicción de nuevos miARNs en genomas completos, en esta tesis se realizaron dos grandes aportes. En primer lugar, se desarrollaron tres nuevas características basadas en medidas de complejidad del miARN maduro, las cuales permiten reducir significativamente el número de falsos positivos. En segundo lugar, se desarrolló el primer algoritmo de aprendizaje profundo de extremo a extremo para la predicción de pre-miARNs en genomas completos. 
Machine learning has had a great development in recent years and has allowed solving a large number of problems in the most diverse disciplines, although there are still great challenges to be solved when the data presents a high degree of class imbalance or has few labeled data. A particular case of application where challenges like these present themselves is in the computational prediction of microRNA sequences. This, also called mature microRNA, is a small non-coding RNA molecule which can regulate gene expression. In recent years, a large number of methods have been developed that try to detect new microRNAs using information mainly from their structure. The main drawback of these methods is that they use characteristics based mainly on the structure of the precursor (pre-miRNA) without including the information of the mature miRNA, which is sequentially encoded. In this way, very valuable information is lost that could be used to improve the prediction of new pre-miRNAs and, in turn, reduce the number of false positives. Deep learning-based approaches have recently been proposed as a method for automatic feature extraction. However, they still have important practical limitations when applied to real forecasting tasks. In order to allow the prediction of new miRNAs in complete genomes, two major contributions were made in this thesis. First, three new features were developed based on complexity measures of the mature miRNA, which allow to significantly reduce the number of false positives. Second, the first end-to-end deep learning algorithm for the prediction of pre-miRNAs in whole genomes was developed.    
Consejo Nacional de Investigaciones Científicas y Técnicas
Universidad Nacional del Litoral
Materia
Medidas de complejidad
Aprendizaje maquinal
Aprendizaje profundo
Predicción de pre-miARN
Genoma completo
Redes transformers
Complexity measures
Machine learning
Deep learning
Pre-miRNA prediction
Genome-wide
Transformers networks
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
Repositorio
Biblioteca Virtual (UNL)
Institución
Universidad Nacional del Litoral
OAI Identificador
oai:https://bibliotecavirtual.unl.edu.ar:11185/7197

id UNLBT_6b72e7edc000f7a561d1b4d486ae9eb4
oai_identifier_str oai:https://bibliotecavirtual.unl.edu.ar:11185/7197
network_acronym_str UNLBT
repository_id_str 2187
network_name_str Biblioteca Virtual (UNL)
spelling Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformáticaNew approaches based on complexity measures for the detection of short sequences in bioinformaticsRaad, JonathanMedidas de complejidadAprendizaje maquinalAprendizaje profundoPredicción de pre-miARNGenoma completoRedes transformersComplexity measuresMachine learningDeep learningPre-miRNA predictionGenome-wideTransformers networksFil: Raad, Jonathan. Universidad Nacional del Litoral. Facultad de ingeniería y Ciencias Hídricas; Argentina.El aprendizaje maquinal ha tenido un gran desarrollo en los últimos años y ha permitido resolver una gran cantidad de problemas en las más diversas disciplinas, aunque aun quedan grandes desafíos por resolver cuando los datos presentan un alto grado de desbalance de clases o tienen muy pocos datos etiquetados. Un caso particular de aplicación donde se presentan desafíos como estos es en la predicción computacional de secuencias de microARN. Este, también llamado microARN maduro, es una pequeña molécula de ARN no codificante la cual puede regular la expresión de los genes. En los últimos años, se ha desarrollado una gran cantidad de métodos que intentan detectar nuevos microARN utilizando información principalmente de su estructura. El principal inconveniente de estos métodos es que utilizan características basadas principalmente en la estructura del precursor (pre-miARN) sin incluir la información del miARN maduro, que se encuentra codificada en forma secuencial. De esta manera, se pierde información muy valiosa que podría utilizarse para mejorar la predicción de nuevos pre-miARN y disminuir a su vez el número de falsos positivos. Recientemente se propusieron enfoques basados en aprendizaje profundo como un método para la extracción automática de características. Sin embargo, éstos tienen aún importantes limitaciones prácticas cuando deben aplicarse a tareas de predicción real. Para poder permitir la predicción de nuevos miARNs en genomas completos, en esta tesis se realizaron dos grandes aportes. En primer lugar, se desarrollaron tres nuevas características basadas en medidas de complejidad del miARN maduro, las cuales permiten reducir significativamente el número de falsos positivos. En segundo lugar, se desarrolló el primer algoritmo de aprendizaje profundo de extremo a extremo para la predicción de pre-miARNs en genomas completos. Machine learning has had a great development in recent years and has allowed solving a large number of problems in the most diverse disciplines, although there are still great challenges to be solved when the data presents a high degree of class imbalance or has few labeled data. A particular case of application where challenges like these present themselves is in the computational prediction of microRNA sequences. This, also called mature microRNA, is a small non-coding RNA molecule which can regulate gene expression. In recent years, a large number of methods have been developed that try to detect new microRNAs using information mainly from their structure. The main drawback of these methods is that they use characteristics based mainly on the structure of the precursor (pre-miRNA) without including the information of the mature miRNA, which is sequentially encoded. In this way, very valuable information is lost that could be used to improve the prediction of new pre-miRNAs and, in turn, reduce the number of false positives. Deep learning-based approaches have recently been proposed as a method for automatic feature extraction. However, they still have important practical limitations when applied to real forecasting tasks. In order to allow the prediction of new miRNAs in complete genomes, two major contributions were made in this thesis. First, three new features were developed based on complexity measures of the mature miRNA, which allow to significantly reduce the number of false positives. Second, the first end-to-end deep learning algorithm for the prediction of pre-miRNAs in whole genomes was developed.    Consejo Nacional de Investigaciones Científicas y TécnicasUniversidad Nacional del LitoralMilone, Diego HumbertoLucero, LeandroTapia, ElizabethCarballido, JéssicaStegmayer, Georgina2023-08-18T12:27:46Z2021-12-17SNRDinfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/11185/7197spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.esreponame:Biblioteca Virtual (UNL)instname:Universidad Nacional del Litoralinstacron:UNL2025-10-23T11:20:11Zoai:https://bibliotecavirtual.unl.edu.ar:11185/7197Institucionalhttp://bibliotecavirtual.unl.edu.ar/Universidad públicaNo correspondeajdeba@unl.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:21872025-10-23 11:20:11.361Biblioteca Virtual (UNL) - Universidad Nacional del Litoralfalse
dc.title.none.fl_str_mv Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformática
New approaches based on complexity measures for the detection of short sequences in bioinformatics
title Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformática
spellingShingle Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformática
Raad, Jonathan
Medidas de complejidad
Aprendizaje maquinal
Aprendizaje profundo
Predicción de pre-miARN
Genoma completo
Redes transformers
Complexity measures
Machine learning
Deep learning
Pre-miRNA prediction
Genome-wide
Transformers networks
title_short Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformática
title_full Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformática
title_fullStr Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformática
title_full_unstemmed Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformática
title_sort Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformática
dc.creator.none.fl_str_mv Raad, Jonathan
author Raad, Jonathan
author_facet Raad, Jonathan
author_role author
dc.contributor.none.fl_str_mv Milone, Diego Humberto
Lucero, Leandro
Tapia, Elizabeth
Carballido, Jéssica
Stegmayer, Georgina
dc.subject.none.fl_str_mv Medidas de complejidad
Aprendizaje maquinal
Aprendizaje profundo
Predicción de pre-miARN
Genoma completo
Redes transformers
Complexity measures
Machine learning
Deep learning
Pre-miRNA prediction
Genome-wide
Transformers networks
topic Medidas de complejidad
Aprendizaje maquinal
Aprendizaje profundo
Predicción de pre-miARN
Genoma completo
Redes transformers
Complexity measures
Machine learning
Deep learning
Pre-miRNA prediction
Genome-wide
Transformers networks
dc.description.none.fl_txt_mv Fil: Raad, Jonathan. Universidad Nacional del Litoral. Facultad de ingeniería y Ciencias Hídricas; Argentina.
El aprendizaje maquinal ha tenido un gran desarrollo en los últimos años y ha permitido resolver una gran cantidad de problemas en las más diversas disciplinas, aunque aun quedan grandes desafíos por resolver cuando los datos presentan un alto grado de desbalance de clases o tienen muy pocos datos etiquetados. Un caso particular de aplicación donde se presentan desafíos como estos es en la predicción computacional de secuencias de microARN. Este, también llamado microARN maduro, es una pequeña molécula de ARN no codificante la cual puede regular la expresión de los genes. En los últimos años, se ha desarrollado una gran cantidad de métodos que intentan detectar nuevos microARN utilizando información principalmente de su estructura. El principal inconveniente de estos métodos es que utilizan características basadas principalmente en la estructura del precursor (pre-miARN) sin incluir la información del miARN maduro, que se encuentra codificada en forma secuencial. De esta manera, se pierde información muy valiosa que podría utilizarse para mejorar la predicción de nuevos pre-miARN y disminuir a su vez el número de falsos positivos. Recientemente se propusieron enfoques basados en aprendizaje profundo como un método para la extracción automática de características. Sin embargo, éstos tienen aún importantes limitaciones prácticas cuando deben aplicarse a tareas de predicción real. Para poder permitir la predicción de nuevos miARNs en genomas completos, en esta tesis se realizaron dos grandes aportes. En primer lugar, se desarrollaron tres nuevas características basadas en medidas de complejidad del miARN maduro, las cuales permiten reducir significativamente el número de falsos positivos. En segundo lugar, se desarrolló el primer algoritmo de aprendizaje profundo de extremo a extremo para la predicción de pre-miARNs en genomas completos. 
Machine learning has had a great development in recent years and has allowed solving a large number of problems in the most diverse disciplines, although there are still great challenges to be solved when the data presents a high degree of class imbalance or has few labeled data. A particular case of application where challenges like these present themselves is in the computational prediction of microRNA sequences. This, also called mature microRNA, is a small non-coding RNA molecule which can regulate gene expression. In recent years, a large number of methods have been developed that try to detect new microRNAs using information mainly from their structure. The main drawback of these methods is that they use characteristics based mainly on the structure of the precursor (pre-miRNA) without including the information of the mature miRNA, which is sequentially encoded. In this way, very valuable information is lost that could be used to improve the prediction of new pre-miRNAs and, in turn, reduce the number of false positives. Deep learning-based approaches have recently been proposed as a method for automatic feature extraction. However, they still have important practical limitations when applied to real forecasting tasks. In order to allow the prediction of new miRNAs in complete genomes, two major contributions were made in this thesis. First, three new features were developed based on complexity measures of the mature miRNA, which allow to significantly reduce the number of false positives. Second, the first end-to-end deep learning algorithm for the prediction of pre-miRNAs in whole genomes was developed.    
Consejo Nacional de Investigaciones Científicas y Técnicas
Universidad Nacional del Litoral
description Fil: Raad, Jonathan. Universidad Nacional del Litoral. Facultad de ingeniería y Ciencias Hídricas; Argentina.
publishDate 2021
dc.date.none.fl_str_mv 2021-12-17
2023-08-18T12:27:46Z
dc.type.none.fl_str_mv SNRD
info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/acceptedVersion
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/11185/7197
url https://hdl.handle.net/11185/7197
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Virtual (UNL)
instname:Universidad Nacional del Litoral
instacron:UNL
reponame_str Biblioteca Virtual (UNL)
collection Biblioteca Virtual (UNL)
instname_str Universidad Nacional del Litoral
instacron_str UNL
institution UNL
repository.name.fl_str_mv Biblioteca Virtual (UNL) - Universidad Nacional del Litoral
repository.mail.fl_str_mv jdeba@unl.edu.ar
_version_ 1846789483072061440
score 12.471625