Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática

Autores
Yones, Cristian Ariel
Año de publicación
2018
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión aceptada
Colaborador/a o director/a de tesis
Milone, Diego Humberto
Manavella, Pablo
Grinblat, Guillermo
Chesñevar, Carlos
Carballido, Jéssica
Stegmayer, Georgina
Descripción
Fil: Yones, Cristian Ariel. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
Machine learning has had a great development in recent years and has allowed solving a large number of problems in the most diverse disciplines. However, there are still great challenges to be solved, such as learning in data with a high degree of class imbalance or with very little tagged data. A particular case of application where challenges such as these are presented is in the computational prediction of microRNA (miRNA) sequences. MicroRNAs (miRNA) are a group of small sequences of non-coding ribonucleic acid (RNA) that play a very important role in gene regulation. In recent years, methods have been developed that try to detect new miRNAs using only structure and sequence information, that is, without measuring levels of expression. These types of methods have important practical limitations when they must be applied to real prediction tasks. In this thesis contributions were made in the three stages of the miRNA prediction process. A tool was developed to extract substrings of a complete genome that meet minimum requirements to be potential pre-miRNAs. A tool was developed to calculate most of the characteristics used in the state of the art. The third and main contribution consists of a semi-supervised learning algorithm that allows to make predictions from few positive class examples and the rest of the unlabeled chains. Each designed tool was compared against the state of the art, obtaining better performance rates and shorter execution times.
El aprendizaje maquinal ha tenido un gran desarrollo en los últimos años y ha permitido resolver una gran cantidad de problemas en las más diversas disciplinas. Sin embargo, aún quedan grandes desafíos por resolver, como lo es el aprendizaje en datos con alto grado de desbalance de clases o con muy pocos datos etiquetados. Un caso particular de aplicación donde se presentan desafíos como estos es en la predicción computacional de secuencias de microARN (miARN). Los microARN (miARN) son un grupo de pequeñas secuencias de ácido ribonucleico (ARN) no codificante que desempeñan un papel muy importante en la regulación génica. En los últimos años, se han desarrollado métodos que intentan detectar nuevos miARNs utilizando sólo información de estructura y secuencia, es decir, sin medir niveles de expresión. Este tipo de métodos tienen importantes limitaciones prácticas cuando deben aplicarse a tareas de predicción real. En esta tesis se realizaron aportes en las tres etapas del proceso de predicción de miARN. Se desarrolló una herramienta para extraer subcadenas de un genoma completo que cumplan con requerimientos mínimos para ser potenciales pre-miARNs. Se desarrolló una herramienta que permite calcular la mayoría de las características utilizadas en el estado del arte. La tercer y principal contribución consiste en un algoritmo de aprendizaje semi-supervisado que permite realizar predicciones a partir de pocos ejemplos de clase positiva y el resto de las cadenas sin etiqueta. Cada herramienta diseñada fue comparada contra el estado del arte, obteniendo mejores tasas de desempeño y menores tiempos de ejecución.
Universidad Nacional del Litoral
Agencia Nacional de Promoción Científica y Tecnológica
Materia
Machine learning
Semi-supervised learning
microRNA prediction
Whole genome
Aprendizaje maquinal
Aprendizaje semi-supervisado
Predicción de microRNA
Genoma completo
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
Repositorio
Biblioteca Virtual (UNL)
Institución
Universidad Nacional del Litoral
OAI Identificador
oai:https://bibliotecavirtual.unl.edu.ar:11185/1159

id UNLBT_8f428138308456a03dcbbc5eb9242d69
oai_identifier_str oai:https://bibliotecavirtual.unl.edu.ar:11185/1159
network_acronym_str UNLBT
repository_id_str 2187
network_name_str Biblioteca Virtual (UNL)
spelling Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformáticaNew semi-supervised approach to sequence identification in bioinformaticsYones, Cristian ArielMachine learningSemi-supervised learningmicroRNA predictionWhole genomeAprendizaje maquinalAprendizaje semi-supervisadoPredicción de microRNAGenoma completoFil: Yones, Cristian Ariel. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.Machine learning has had a great development in recent years and has allowed solving a large number of problems in the most diverse disciplines. However, there are still great challenges to be solved, such as learning in data with a high degree of class imbalance or with very little tagged data. A particular case of application where challenges such as these are presented is in the computational prediction of microRNA (miRNA) sequences. MicroRNAs (miRNA) are a group of small sequences of non-coding ribonucleic acid (RNA) that play a very important role in gene regulation. In recent years, methods have been developed that try to detect new miRNAs using only structure and sequence information, that is, without measuring levels of expression. These types of methods have important practical limitations when they must be applied to real prediction tasks. In this thesis contributions were made in the three stages of the miRNA prediction process. A tool was developed to extract substrings of a complete genome that meet minimum requirements to be potential pre-miRNAs. A tool was developed to calculate most of the characteristics used in the state of the art. The third and main contribution consists of a semi-supervised learning algorithm that allows to make predictions from few positive class examples and the rest of the unlabeled chains. Each designed tool was compared against the state of the art, obtaining better performance rates and shorter execution times.El aprendizaje maquinal ha tenido un gran desarrollo en los últimos años y ha permitido resolver una gran cantidad de problemas en las más diversas disciplinas. Sin embargo, aún quedan grandes desafíos por resolver, como lo es el aprendizaje en datos con alto grado de desbalance de clases o con muy pocos datos etiquetados. Un caso particular de aplicación donde se presentan desafíos como estos es en la predicción computacional de secuencias de microARN (miARN). Los microARN (miARN) son un grupo de pequeñas secuencias de ácido ribonucleico (ARN) no codificante que desempeñan un papel muy importante en la regulación génica. En los últimos años, se han desarrollado métodos que intentan detectar nuevos miARNs utilizando sólo información de estructura y secuencia, es decir, sin medir niveles de expresión. Este tipo de métodos tienen importantes limitaciones prácticas cuando deben aplicarse a tareas de predicción real. En esta tesis se realizaron aportes en las tres etapas del proceso de predicción de miARN. Se desarrolló una herramienta para extraer subcadenas de un genoma completo que cumplan con requerimientos mínimos para ser potenciales pre-miARNs. Se desarrolló una herramienta que permite calcular la mayoría de las características utilizadas en el estado del arte. La tercer y principal contribución consiste en un algoritmo de aprendizaje semi-supervisado que permite realizar predicciones a partir de pocos ejemplos de clase positiva y el resto de las cadenas sin etiqueta. Cada herramienta diseñada fue comparada contra el estado del arte, obteniendo mejores tasas de desempeño y menores tiempos de ejecución.Universidad Nacional del LitoralAgencia Nacional de Promoción Científica y TecnológicaMilone, Diego HumbertoManavella, PabloGrinblat, GuillermoChesñevar, CarlosCarballido, JéssicaStegmayer, Georgina2018-12-272018-11-22info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionSNRDhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttp://hdl.handle.net/11185/1159spaspainfo:eu-repo/semantics/openAccessAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)http://creativecommons.org/licenses/by-nc-nd/4.0/deed.esreponame:Biblioteca Virtual (UNL)instname:Universidad Nacional del Litoralinstacron:UNL2025-10-23T11:19:37Zoai:https://bibliotecavirtual.unl.edu.ar:11185/1159Institucionalhttp://bibliotecavirtual.unl.edu.ar/Universidad públicaNo correspondeajdeba@unl.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:21872025-10-23 11:19:38.093Biblioteca Virtual (UNL) - Universidad Nacional del Litoralfalse
dc.title.none.fl_str_mv Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática
New semi-supervised approach to sequence identification in bioinformatics
title Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática
spellingShingle Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática
Yones, Cristian Ariel
Machine learning
Semi-supervised learning
microRNA prediction
Whole genome
Aprendizaje maquinal
Aprendizaje semi-supervisado
Predicción de microRNA
Genoma completo
title_short Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática
title_full Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática
title_fullStr Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática
title_full_unstemmed Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática
title_sort Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática
dc.creator.none.fl_str_mv Yones, Cristian Ariel
author Yones, Cristian Ariel
author_facet Yones, Cristian Ariel
author_role author
dc.contributor.none.fl_str_mv Milone, Diego Humberto
Manavella, Pablo
Grinblat, Guillermo
Chesñevar, Carlos
Carballido, Jéssica
Stegmayer, Georgina
dc.subject.none.fl_str_mv Machine learning
Semi-supervised learning
microRNA prediction
Whole genome
Aprendizaje maquinal
Aprendizaje semi-supervisado
Predicción de microRNA
Genoma completo
topic Machine learning
Semi-supervised learning
microRNA prediction
Whole genome
Aprendizaje maquinal
Aprendizaje semi-supervisado
Predicción de microRNA
Genoma completo
dc.description.none.fl_txt_mv Fil: Yones, Cristian Ariel. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
Machine learning has had a great development in recent years and has allowed solving a large number of problems in the most diverse disciplines. However, there are still great challenges to be solved, such as learning in data with a high degree of class imbalance or with very little tagged data. A particular case of application where challenges such as these are presented is in the computational prediction of microRNA (miRNA) sequences. MicroRNAs (miRNA) are a group of small sequences of non-coding ribonucleic acid (RNA) that play a very important role in gene regulation. In recent years, methods have been developed that try to detect new miRNAs using only structure and sequence information, that is, without measuring levels of expression. These types of methods have important practical limitations when they must be applied to real prediction tasks. In this thesis contributions were made in the three stages of the miRNA prediction process. A tool was developed to extract substrings of a complete genome that meet minimum requirements to be potential pre-miRNAs. A tool was developed to calculate most of the characteristics used in the state of the art. The third and main contribution consists of a semi-supervised learning algorithm that allows to make predictions from few positive class examples and the rest of the unlabeled chains. Each designed tool was compared against the state of the art, obtaining better performance rates and shorter execution times.
El aprendizaje maquinal ha tenido un gran desarrollo en los últimos años y ha permitido resolver una gran cantidad de problemas en las más diversas disciplinas. Sin embargo, aún quedan grandes desafíos por resolver, como lo es el aprendizaje en datos con alto grado de desbalance de clases o con muy pocos datos etiquetados. Un caso particular de aplicación donde se presentan desafíos como estos es en la predicción computacional de secuencias de microARN (miARN). Los microARN (miARN) son un grupo de pequeñas secuencias de ácido ribonucleico (ARN) no codificante que desempeñan un papel muy importante en la regulación génica. En los últimos años, se han desarrollado métodos que intentan detectar nuevos miARNs utilizando sólo información de estructura y secuencia, es decir, sin medir niveles de expresión. Este tipo de métodos tienen importantes limitaciones prácticas cuando deben aplicarse a tareas de predicción real. En esta tesis se realizaron aportes en las tres etapas del proceso de predicción de miARN. Se desarrolló una herramienta para extraer subcadenas de un genoma completo que cumplan con requerimientos mínimos para ser potenciales pre-miARNs. Se desarrolló una herramienta que permite calcular la mayoría de las características utilizadas en el estado del arte. La tercer y principal contribución consiste en un algoritmo de aprendizaje semi-supervisado que permite realizar predicciones a partir de pocos ejemplos de clase positiva y el resto de las cadenas sin etiqueta. Cada herramienta diseñada fue comparada contra el estado del arte, obteniendo mejores tasas de desempeño y menores tiempos de ejecución.
Universidad Nacional del Litoral
Agencia Nacional de Promoción Científica y Tecnológica
description Fil: Yones, Cristian Ariel. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
publishDate 2018
dc.date.none.fl_str_mv 2018-12-27
2018-11-22
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/acceptedVersion
SNRD
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11185/1159
url http://hdl.handle.net/11185/1159
dc.language.none.fl_str_mv spa
spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
eu_rights_str_mv openAccess
rights_invalid_str_mv Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Virtual (UNL)
instname:Universidad Nacional del Litoral
instacron:UNL
reponame_str Biblioteca Virtual (UNL)
collection Biblioteca Virtual (UNL)
instname_str Universidad Nacional del Litoral
instacron_str UNL
institution UNL
repository.name.fl_str_mv Biblioteca Virtual (UNL) - Universidad Nacional del Litoral
repository.mail.fl_str_mv jdeba@unl.edu.ar
_version_ 1846789471480053760
score 12.471625