Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala

Autores
Rabinovich, Andrés
Año de publicación
2022
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión publicada
Colaborador/a o director/a de tesis
Chernomoretz, Ariel
Yanovsky, Marcelo Javier
Descripción
Una gran variedad de funciones celulares, como la respuesta a estrés, el mantenimiento del estado celular y el dimorfismo, entre otras, son controladas por programas de regulación génica que deben ajustar los cambios en los niveles de expresión de cada gen a lo largo del tiempo de forma coordinada. En los últimos años, avances en técnicas de secuenciación de alto rendimiento permitieron abordar el estudio del funcionamiento celular a partir de propiedades de redes de interacciones entre sus constituyentes moleculares. Este abordaje sistémico, propio del estudio de sistemas complejos, utiliza intensivamente la teoría de redes complejas para el estudio a escala global de propiedades de organización y funcionamiento de genes y proteínas dentro de una célula. En este trabajo abordamos esta temática con especial énfasis en desarrollar nuevas herramientas que permitan sacar provecho de la integración de grandes volúmenes de datos. En la primera parte de esta tesis desarrollamos herramientas computacionales para el análisis cuantitativo de datos de RNA-seq tanto a nivel de expresión génica como a nivel de splicing. En particular lo realizado fue implementado como un paquete de código libre y abierto, ASpli, específicamente diseñado y adaptado para integrar en un único framework estadístico distintas señales de splicing provenientes de junturas y cobertura, tomando en cuenta los distintos patrones de splicing alternativo que pueden ocurrir. ASpli se encuentra disponible para su descarga desde el repositorio de paquetes de análisis biológico Bioconductor. La segunda parte de este trabajo consistió en el armado de redes complejas de regulación génica a partir de datos de RNA-seq. Utilizamos para ello una estrategia basada en una heurística de regresiones del tipo Bosques Aleatorios o Random Forest, modificada para incorporar información biológica preexistente codificada en Ontología Génica o Gene Ontology. Esta ontología provee un vocabulario controlado de términos caracterizando las propiedades de los productos génicos. A partir de la misma, es posible definir similaridades entre genes de tipo reguladores y genes de tipo diana, y esto permite modificar las probabilidades de seleccionar un factor de transcripción como variable explicativa en cada árbol del random forest, para cada gen diana, en función de la similaridad entre ese factor de transcripción y el gen. Utilizando esta metodología analizamos datos de RNA-seq de series temporales en A. thaliana y datos de knockout y knockdown de E. coli y S. cerevisiae, obteniendo resultados biológicamente relevantes y en algunos casos mejorando los resultados obtenidos con otras metodologías ampliamente utilizadas para el análisis de este tipo de datos.
A large variety of cellular functions, like response to stress, cellular state maintenance and dimorfism, among others, are controlled by gene regulatory programs that must adjust changes in gene expression levels over time on a coordinated fashion. During the last years, advances in high throughput sequencing techniques allowed the studying of cellular functions through the properties of interaction networks between it’s molecular constituents. This systemic analysis, typical of complex systems, intensively uses complex networks theory for studying organizational and functional properties of genes and proteins inside a cell on a global scale.In this work we address this issue with particular interest in developing new tools that allow us to take advantage of big data integration. For the first part of this thesis we developed computational tools for RNA-seq quantitative analysis for both gene expression and splicing levels. Specifically, we developed an open software package, called ASpli, designed and adapted to integrate different splicing signals from both junctions and coverage, on a single statistical framework, considering all the distinct splicing patterns that can arise on a cell. ASpli is currently available for download from Bioconductor, the R biological analysis package repository, https://www.bioconductor.org/packages/ASpli, together with examples, use cases and a detailed description of the implemented methodology. ASpli was published in Bioinformatics (DOI: 10.1093/bioinformatics/btab141) For the second part of this thesis we inferred complex gene regulatory networks from RNA-seq data. We used a strategy based on modifying a random forest heuristic to incorporate previous biological knowledge codified in Gene Ontology. This ontology provides a controlled vocabulary of biological terms that characterize the properties of gene products. With it, we defined similarities between regulatory genes and its (possible) target genes and modified the probability of selecting a particular regulatory gene in each tree in the random forest for each target gene as a function of this similarity. With this methodology, we analysed an A. thaliana RNA-seq time course and knockout and knockdown E. coli and S. cerevisiae experiments, obtaining biologically relevant results and in some cases improving the results obtained with other state of the art methodologies.
Fil: Rabinovich, Andrés. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
REDES COMPLEJAS DE ORIGEN BIOLOGICO
RNA-SEQ
SPLICING ALTERNATIVO
BIOLOGICAL COMPLEX NETWORKS
RNA-SEQ
ALTERNATIVE SPLICING
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
tesis:tesis_n7221_Rabinovich

id BDUBAFCEN_0ab11ef2733a54d935c03df202b30fb0
oai_identifier_str tesis:tesis_n7221_Rabinovich
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escalaInferring complex gene regulatory networks from high throughput transcriptional dataRabinovich, AndrésREDES COMPLEJAS DE ORIGEN BIOLOGICO RNA-SEQSPLICING ALTERNATIVOBIOLOGICAL COMPLEX NETWORKSRNA-SEQALTERNATIVE SPLICINGUna gran variedad de funciones celulares, como la respuesta a estrés, el mantenimiento del estado celular y el dimorfismo, entre otras, son controladas por programas de regulación génica que deben ajustar los cambios en los niveles de expresión de cada gen a lo largo del tiempo de forma coordinada. En los últimos años, avances en técnicas de secuenciación de alto rendimiento permitieron abordar el estudio del funcionamiento celular a partir de propiedades de redes de interacciones entre sus constituyentes moleculares. Este abordaje sistémico, propio del estudio de sistemas complejos, utiliza intensivamente la teoría de redes complejas para el estudio a escala global de propiedades de organización y funcionamiento de genes y proteínas dentro de una célula. En este trabajo abordamos esta temática con especial énfasis en desarrollar nuevas herramientas que permitan sacar provecho de la integración de grandes volúmenes de datos. En la primera parte de esta tesis desarrollamos herramientas computacionales para el análisis cuantitativo de datos de RNA-seq tanto a nivel de expresión génica como a nivel de splicing. En particular lo realizado fue implementado como un paquete de código libre y abierto, ASpli, específicamente diseñado y adaptado para integrar en un único framework estadístico distintas señales de splicing provenientes de junturas y cobertura, tomando en cuenta los distintos patrones de splicing alternativo que pueden ocurrir. ASpli se encuentra disponible para su descarga desde el repositorio de paquetes de análisis biológico Bioconductor. La segunda parte de este trabajo consistió en el armado de redes complejas de regulación génica a partir de datos de RNA-seq. Utilizamos para ello una estrategia basada en una heurística de regresiones del tipo Bosques Aleatorios o Random Forest, modificada para incorporar información biológica preexistente codificada en Ontología Génica o Gene Ontology. Esta ontología provee un vocabulario controlado de términos caracterizando las propiedades de los productos génicos. A partir de la misma, es posible definir similaridades entre genes de tipo reguladores y genes de tipo diana, y esto permite modificar las probabilidades de seleccionar un factor de transcripción como variable explicativa en cada árbol del random forest, para cada gen diana, en función de la similaridad entre ese factor de transcripción y el gen. Utilizando esta metodología analizamos datos de RNA-seq de series temporales en A. thaliana y datos de knockout y knockdown de E. coli y S. cerevisiae, obteniendo resultados biológicamente relevantes y en algunos casos mejorando los resultados obtenidos con otras metodologías ampliamente utilizadas para el análisis de este tipo de datos.A large variety of cellular functions, like response to stress, cellular state maintenance and dimorfism, among others, are controlled by gene regulatory programs that must adjust changes in gene expression levels over time on a coordinated fashion. During the last years, advances in high throughput sequencing techniques allowed the studying of cellular functions through the properties of interaction networks between it’s molecular constituents. This systemic analysis, typical of complex systems, intensively uses complex networks theory for studying organizational and functional properties of genes and proteins inside a cell on a global scale.In this work we address this issue with particular interest in developing new tools that allow us to take advantage of big data integration. For the first part of this thesis we developed computational tools for RNA-seq quantitative analysis for both gene expression and splicing levels. Specifically, we developed an open software package, called ASpli, designed and adapted to integrate different splicing signals from both junctions and coverage, on a single statistical framework, considering all the distinct splicing patterns that can arise on a cell. ASpli is currently available for download from Bioconductor, the R biological analysis package repository, https://www.bioconductor.org/packages/ASpli, together with examples, use cases and a detailed description of the implemented methodology. ASpli was published in Bioinformatics (DOI: 10.1093/bioinformatics/btab141) For the second part of this thesis we inferred complex gene regulatory networks from RNA-seq data. We used a strategy based on modifying a random forest heuristic to incorporate previous biological knowledge codified in Gene Ontology. This ontology provides a controlled vocabulary of biological terms that characterize the properties of gene products. With it, we defined similarities between regulatory genes and its (possible) target genes and modified the probability of selecting a particular regulatory gene in each tree in the random forest for each target gene as a function of this similarity. With this methodology, we analysed an A. thaliana RNA-seq time course and knockout and knockdown E. coli and S. cerevisiae experiments, obtaining biologically relevant results and in some cases improving the results obtained with other state of the art methodologies.Fil: Rabinovich, Andrés. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesChernomoretz, ArielYanovsky, Marcelo Javier2022-11-02info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n7221_Rabinovichspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:42:26Ztesis:tesis_n7221_RabinovichInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:42:27.918Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
Inferring complex gene regulatory networks from high throughput transcriptional data
title Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
spellingShingle Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
Rabinovich, Andrés
REDES COMPLEJAS DE ORIGEN BIOLOGICO
RNA-SEQ
SPLICING ALTERNATIVO
BIOLOGICAL COMPLEX NETWORKS
RNA-SEQ
ALTERNATIVE SPLICING
title_short Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
title_full Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
title_fullStr Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
title_full_unstemmed Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
title_sort Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
dc.creator.none.fl_str_mv Rabinovich, Andrés
author Rabinovich, Andrés
author_facet Rabinovich, Andrés
author_role author
dc.contributor.none.fl_str_mv Chernomoretz, Ariel
Yanovsky, Marcelo Javier
dc.subject.none.fl_str_mv REDES COMPLEJAS DE ORIGEN BIOLOGICO
RNA-SEQ
SPLICING ALTERNATIVO
BIOLOGICAL COMPLEX NETWORKS
RNA-SEQ
ALTERNATIVE SPLICING
topic REDES COMPLEJAS DE ORIGEN BIOLOGICO
RNA-SEQ
SPLICING ALTERNATIVO
BIOLOGICAL COMPLEX NETWORKS
RNA-SEQ
ALTERNATIVE SPLICING
dc.description.none.fl_txt_mv Una gran variedad de funciones celulares, como la respuesta a estrés, el mantenimiento del estado celular y el dimorfismo, entre otras, son controladas por programas de regulación génica que deben ajustar los cambios en los niveles de expresión de cada gen a lo largo del tiempo de forma coordinada. En los últimos años, avances en técnicas de secuenciación de alto rendimiento permitieron abordar el estudio del funcionamiento celular a partir de propiedades de redes de interacciones entre sus constituyentes moleculares. Este abordaje sistémico, propio del estudio de sistemas complejos, utiliza intensivamente la teoría de redes complejas para el estudio a escala global de propiedades de organización y funcionamiento de genes y proteínas dentro de una célula. En este trabajo abordamos esta temática con especial énfasis en desarrollar nuevas herramientas que permitan sacar provecho de la integración de grandes volúmenes de datos. En la primera parte de esta tesis desarrollamos herramientas computacionales para el análisis cuantitativo de datos de RNA-seq tanto a nivel de expresión génica como a nivel de splicing. En particular lo realizado fue implementado como un paquete de código libre y abierto, ASpli, específicamente diseñado y adaptado para integrar en un único framework estadístico distintas señales de splicing provenientes de junturas y cobertura, tomando en cuenta los distintos patrones de splicing alternativo que pueden ocurrir. ASpli se encuentra disponible para su descarga desde el repositorio de paquetes de análisis biológico Bioconductor. La segunda parte de este trabajo consistió en el armado de redes complejas de regulación génica a partir de datos de RNA-seq. Utilizamos para ello una estrategia basada en una heurística de regresiones del tipo Bosques Aleatorios o Random Forest, modificada para incorporar información biológica preexistente codificada en Ontología Génica o Gene Ontology. Esta ontología provee un vocabulario controlado de términos caracterizando las propiedades de los productos génicos. A partir de la misma, es posible definir similaridades entre genes de tipo reguladores y genes de tipo diana, y esto permite modificar las probabilidades de seleccionar un factor de transcripción como variable explicativa en cada árbol del random forest, para cada gen diana, en función de la similaridad entre ese factor de transcripción y el gen. Utilizando esta metodología analizamos datos de RNA-seq de series temporales en A. thaliana y datos de knockout y knockdown de E. coli y S. cerevisiae, obteniendo resultados biológicamente relevantes y en algunos casos mejorando los resultados obtenidos con otras metodologías ampliamente utilizadas para el análisis de este tipo de datos.
A large variety of cellular functions, like response to stress, cellular state maintenance and dimorfism, among others, are controlled by gene regulatory programs that must adjust changes in gene expression levels over time on a coordinated fashion. During the last years, advances in high throughput sequencing techniques allowed the studying of cellular functions through the properties of interaction networks between it’s molecular constituents. This systemic analysis, typical of complex systems, intensively uses complex networks theory for studying organizational and functional properties of genes and proteins inside a cell on a global scale.In this work we address this issue with particular interest in developing new tools that allow us to take advantage of big data integration. For the first part of this thesis we developed computational tools for RNA-seq quantitative analysis for both gene expression and splicing levels. Specifically, we developed an open software package, called ASpli, designed and adapted to integrate different splicing signals from both junctions and coverage, on a single statistical framework, considering all the distinct splicing patterns that can arise on a cell. ASpli is currently available for download from Bioconductor, the R biological analysis package repository, https://www.bioconductor.org/packages/ASpli, together with examples, use cases and a detailed description of the implemented methodology. ASpli was published in Bioinformatics (DOI: 10.1093/bioinformatics/btab141) For the second part of this thesis we inferred complex gene regulatory networks from RNA-seq data. We used a strategy based on modifying a random forest heuristic to incorporate previous biological knowledge codified in Gene Ontology. This ontology provides a controlled vocabulary of biological terms that characterize the properties of gene products. With it, we defined similarities between regulatory genes and its (possible) target genes and modified the probability of selecting a particular regulatory gene in each tree in the random forest for each target gene as a function of this similarity. With this methodology, we analysed an A. thaliana RNA-seq time course and knockout and knockdown E. coli and S. cerevisiae experiments, obtaining biologically relevant results and in some cases improving the results obtained with other state of the art methodologies.
Fil: Rabinovich, Andrés. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Una gran variedad de funciones celulares, como la respuesta a estrés, el mantenimiento del estado celular y el dimorfismo, entre otras, son controladas por programas de regulación génica que deben ajustar los cambios en los niveles de expresión de cada gen a lo largo del tiempo de forma coordinada. En los últimos años, avances en técnicas de secuenciación de alto rendimiento permitieron abordar el estudio del funcionamiento celular a partir de propiedades de redes de interacciones entre sus constituyentes moleculares. Este abordaje sistémico, propio del estudio de sistemas complejos, utiliza intensivamente la teoría de redes complejas para el estudio a escala global de propiedades de organización y funcionamiento de genes y proteínas dentro de una célula. En este trabajo abordamos esta temática con especial énfasis en desarrollar nuevas herramientas que permitan sacar provecho de la integración de grandes volúmenes de datos. En la primera parte de esta tesis desarrollamos herramientas computacionales para el análisis cuantitativo de datos de RNA-seq tanto a nivel de expresión génica como a nivel de splicing. En particular lo realizado fue implementado como un paquete de código libre y abierto, ASpli, específicamente diseñado y adaptado para integrar en un único framework estadístico distintas señales de splicing provenientes de junturas y cobertura, tomando en cuenta los distintos patrones de splicing alternativo que pueden ocurrir. ASpli se encuentra disponible para su descarga desde el repositorio de paquetes de análisis biológico Bioconductor. La segunda parte de este trabajo consistió en el armado de redes complejas de regulación génica a partir de datos de RNA-seq. Utilizamos para ello una estrategia basada en una heurística de regresiones del tipo Bosques Aleatorios o Random Forest, modificada para incorporar información biológica preexistente codificada en Ontología Génica o Gene Ontology. Esta ontología provee un vocabulario controlado de términos caracterizando las propiedades de los productos génicos. A partir de la misma, es posible definir similaridades entre genes de tipo reguladores y genes de tipo diana, y esto permite modificar las probabilidades de seleccionar un factor de transcripción como variable explicativa en cada árbol del random forest, para cada gen diana, en función de la similaridad entre ese factor de transcripción y el gen. Utilizando esta metodología analizamos datos de RNA-seq de series temporales en A. thaliana y datos de knockout y knockdown de E. coli y S. cerevisiae, obteniendo resultados biológicamente relevantes y en algunos casos mejorando los resultados obtenidos con otras metodologías ampliamente utilizadas para el análisis de este tipo de datos.
publishDate 2022
dc.date.none.fl_str_mv 2022-11-02
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/tesis_n7221_Rabinovich
url https://hdl.handle.net/20.500.12110/tesis_n7221_Rabinovich
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618725524766720
score 13.070432