Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas

Autores
Taie, Armando
Año de publicación
2008
Idioma
español castellano
Tipo de recurso
tesis de maestría
Estado
versión aceptada
Colaborador/a o director/a de tesis
Haedo, Ana Silvia
Paniego, Norma Beatriz
Soria, Marcelo
Descripción
Tesis para obtener el grado de Magíster Scientiae en Explotación de Datos y Descubrimiento del Conocimiento, de la Universidad de Buenos Aires, en diciembre de 2008
Los experimentos de micromatrices de DNA permiten obtener información sobre la expresión conjunta de cientos o miles de genes, lo que ha producido un importante incremento en el volumen de datos disponibles en el área de las ciencias biológicas. Sin embargo, esta disponibilidad de información no ha implicado un aumento proporcional en el avance del conocimiento relacionado. La minería de datos (data-mining) surge como una tecnología emergente que sirve de soporte para el descubrimiento de conocimiento, que se revela a partir de patrones observables en datos estructurados o asociaciones que usualmente eran desconocidas. El presente trabajo consiste en desarrollar una metodología de análisis de datos que permita descubrir conocimientos biológicamente relevantes, partiendo de datos de micromatrices de arroz almacenados en repositorios públicos, enriqueciendo esta información mediante la asociación con los términos de la Ontología de Genes (Gene Ontology, GO). La GO propone establecer descripciones coherentes de los genes a partir del desarrollo de vocabularios controlados y proporciona tres redes estructuradas de términos controlados para describir los atributos de los genes que pueden ser aplicados a cualquier organismo. La metodología desarrollada se basa en la aplicación de paquetes de software de código abierto para el análisis de datos, como el lenguaje R, que provee un entorno de procesamiento estadístico y gráfico. R posee una instalación base y módulos que se agregan según el tipo de análisis que se realice. Entre ellos se encuentra el módulo Bioconductor que permite el análisis de datos bioinformáticos. Este tipo de iniciativas de código abierto y libre, facilitan la comunicación entre los usuarios creando comunidades que se van fortaleciendo y enriqueciendo a través de los conocimientos compartidos. Se utilizó un paquete especial del Bioconductor para consultar y rescatar información de la Base de Datos de la GO (GO.db). Estas aplicaciones, asociadas al administrador de Base de Datos MySQL, fueron usadas en el desarrollo de una pipeline para implementar los procedimientos de extracción del conocimiento propuestos en esta tesis. Se utilizaron como modelo, los datos crudos obtenidos de estudios independientes sobre perfiles de expresión de genes de arroz inducidos ante estreses abióticos.
DNA microarray technology allows scientists to study the expression of thousands of genes simultaneously; however the increase of biological data has not implied a proportional growth of related knowledge. Knowledge discovery from the amount of data collected depends on the development and appropriate use of data mining and statistical tools. This work involves the application of techniques for extracting knowledge implicit previously unknown and potentially useful from the biological information obtained from gene expression studies using microarrays. Three sets of experimental DNA microarray data from selected Oryza sativa abiotic stress experiments were analyzed using a pipeline based on MySQL database and R/Bioconductor routines. A secondary refinement process using the GO annotations was introduced to enrich the level of biological information included in the clusters. The result was a high-level biological significance categorization of microarray data based on GO resources.
EEA Corrientes
Fil: Taie, Armando. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Corrientes; Argentina
Materia
ADN
Minería de Datos
Ontología
Arroz
Genes
Procesamiento de Datos
DNA
Data Mining
Ontology
Rice
Data Processing
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
INTA Digital (INTA)
Institución
Instituto Nacional de Tecnología Agropecuaria
OAI Identificador
oai:localhost:20.500.12123/7151

id INTADig_caca4066336f38c4ba1d37e419f407bc
oai_identifier_str oai:localhost:20.500.12123/7151
network_acronym_str INTADig
repository_id_str l
network_name_str INTA Digital (INTA)
spelling Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticasTaie, ArmandoADNMinería de DatosOntologíaArrozGenesProcesamiento de DatosDNAData MiningOntologyRiceData ProcessingTesis para obtener el grado de Magíster Scientiae en Explotación de Datos y Descubrimiento del Conocimiento, de la Universidad de Buenos Aires, en diciembre de 2008Los experimentos de micromatrices de DNA permiten obtener información sobre la expresión conjunta de cientos o miles de genes, lo que ha producido un importante incremento en el volumen de datos disponibles en el área de las ciencias biológicas. Sin embargo, esta disponibilidad de información no ha implicado un aumento proporcional en el avance del conocimiento relacionado. La minería de datos (data-mining) surge como una tecnología emergente que sirve de soporte para el descubrimiento de conocimiento, que se revela a partir de patrones observables en datos estructurados o asociaciones que usualmente eran desconocidas. El presente trabajo consiste en desarrollar una metodología de análisis de datos que permita descubrir conocimientos biológicamente relevantes, partiendo de datos de micromatrices de arroz almacenados en repositorios públicos, enriqueciendo esta información mediante la asociación con los términos de la Ontología de Genes (Gene Ontology, GO). La GO propone establecer descripciones coherentes de los genes a partir del desarrollo de vocabularios controlados y proporciona tres redes estructuradas de términos controlados para describir los atributos de los genes que pueden ser aplicados a cualquier organismo. La metodología desarrollada se basa en la aplicación de paquetes de software de código abierto para el análisis de datos, como el lenguaje R, que provee un entorno de procesamiento estadístico y gráfico. R posee una instalación base y módulos que se agregan según el tipo de análisis que se realice. Entre ellos se encuentra el módulo Bioconductor que permite el análisis de datos bioinformáticos. Este tipo de iniciativas de código abierto y libre, facilitan la comunicación entre los usuarios creando comunidades que se van fortaleciendo y enriqueciendo a través de los conocimientos compartidos. Se utilizó un paquete especial del Bioconductor para consultar y rescatar información de la Base de Datos de la GO (GO.db). Estas aplicaciones, asociadas al administrador de Base de Datos MySQL, fueron usadas en el desarrollo de una pipeline para implementar los procedimientos de extracción del conocimiento propuestos en esta tesis. Se utilizaron como modelo, los datos crudos obtenidos de estudios independientes sobre perfiles de expresión de genes de arroz inducidos ante estreses abióticos.DNA microarray technology allows scientists to study the expression of thousands of genes simultaneously; however the increase of biological data has not implied a proportional growth of related knowledge. Knowledge discovery from the amount of data collected depends on the development and appropriate use of data mining and statistical tools. This work involves the application of techniques for extracting knowledge implicit previously unknown and potentially useful from the biological information obtained from gene expression studies using microarrays. Three sets of experimental DNA microarray data from selected Oryza sativa abiotic stress experiments were analyzed using a pipeline based on MySQL database and R/Bioconductor routines. A secondary refinement process using the GO annotations was introduced to enrich the level of biological information included in the clusters. The result was a high-level biological significance categorization of microarray data based on GO resources.EEA CorrientesFil: Taie, Armando. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Corrientes; ArgentinaFacultad de Ciencias Exactas y Naturales, Universidad de Buenos AiresHaedo, Ana SilviaPaniego, Norma BeatrizSoria, Marcelo2020-04-27T14:14:07Z2020-04-27T14:14:07Z2008-12info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttp://hdl.handle.net/20.500.12123/7151spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:INTA Digital (INTA)instname:Instituto Nacional de Tecnología Agropecuaria2025-09-29T13:44:55Zoai:localhost:20.500.12123/7151instacron:INTAInstitucionalhttp://repositorio.inta.gob.ar/Organismo científico-tecnológicoNo correspondehttp://repositorio.inta.gob.ar/oai/requesttripaldi.nicolas@inta.gob.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:l2025-09-29 13:44:56.147INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuariafalse
dc.title.none.fl_str_mv Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas
title Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas
spellingShingle Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas
Taie, Armando
ADN
Minería de Datos
Ontología
Arroz
Genes
Procesamiento de Datos
DNA
Data Mining
Ontology
Rice
Data Processing
title_short Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas
title_full Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas
title_fullStr Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas
title_full_unstemmed Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas
title_sort Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas
dc.creator.none.fl_str_mv Taie, Armando
author Taie, Armando
author_facet Taie, Armando
author_role author
dc.contributor.none.fl_str_mv Haedo, Ana Silvia
Paniego, Norma Beatriz
Soria, Marcelo
dc.subject.none.fl_str_mv ADN
Minería de Datos
Ontología
Arroz
Genes
Procesamiento de Datos
DNA
Data Mining
Ontology
Rice
Data Processing
topic ADN
Minería de Datos
Ontología
Arroz
Genes
Procesamiento de Datos
DNA
Data Mining
Ontology
Rice
Data Processing
dc.description.none.fl_txt_mv Tesis para obtener el grado de Magíster Scientiae en Explotación de Datos y Descubrimiento del Conocimiento, de la Universidad de Buenos Aires, en diciembre de 2008
Los experimentos de micromatrices de DNA permiten obtener información sobre la expresión conjunta de cientos o miles de genes, lo que ha producido un importante incremento en el volumen de datos disponibles en el área de las ciencias biológicas. Sin embargo, esta disponibilidad de información no ha implicado un aumento proporcional en el avance del conocimiento relacionado. La minería de datos (data-mining) surge como una tecnología emergente que sirve de soporte para el descubrimiento de conocimiento, que se revela a partir de patrones observables en datos estructurados o asociaciones que usualmente eran desconocidas. El presente trabajo consiste en desarrollar una metodología de análisis de datos que permita descubrir conocimientos biológicamente relevantes, partiendo de datos de micromatrices de arroz almacenados en repositorios públicos, enriqueciendo esta información mediante la asociación con los términos de la Ontología de Genes (Gene Ontology, GO). La GO propone establecer descripciones coherentes de los genes a partir del desarrollo de vocabularios controlados y proporciona tres redes estructuradas de términos controlados para describir los atributos de los genes que pueden ser aplicados a cualquier organismo. La metodología desarrollada se basa en la aplicación de paquetes de software de código abierto para el análisis de datos, como el lenguaje R, que provee un entorno de procesamiento estadístico y gráfico. R posee una instalación base y módulos que se agregan según el tipo de análisis que se realice. Entre ellos se encuentra el módulo Bioconductor que permite el análisis de datos bioinformáticos. Este tipo de iniciativas de código abierto y libre, facilitan la comunicación entre los usuarios creando comunidades que se van fortaleciendo y enriqueciendo a través de los conocimientos compartidos. Se utilizó un paquete especial del Bioconductor para consultar y rescatar información de la Base de Datos de la GO (GO.db). Estas aplicaciones, asociadas al administrador de Base de Datos MySQL, fueron usadas en el desarrollo de una pipeline para implementar los procedimientos de extracción del conocimiento propuestos en esta tesis. Se utilizaron como modelo, los datos crudos obtenidos de estudios independientes sobre perfiles de expresión de genes de arroz inducidos ante estreses abióticos.
DNA microarray technology allows scientists to study the expression of thousands of genes simultaneously; however the increase of biological data has not implied a proportional growth of related knowledge. Knowledge discovery from the amount of data collected depends on the development and appropriate use of data mining and statistical tools. This work involves the application of techniques for extracting knowledge implicit previously unknown and potentially useful from the biological information obtained from gene expression studies using microarrays. Three sets of experimental DNA microarray data from selected Oryza sativa abiotic stress experiments were analyzed using a pipeline based on MySQL database and R/Bioconductor routines. A secondary refinement process using the GO annotations was introduced to enrich the level of biological information included in the clusters. The result was a high-level biological significance categorization of microarray data based on GO resources.
EEA Corrientes
Fil: Taie, Armando. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Corrientes; Argentina
description Tesis para obtener el grado de Magíster Scientiae en Explotación de Datos y Descubrimiento del Conocimiento, de la Universidad de Buenos Aires, en diciembre de 2008
publishDate 2008
dc.date.none.fl_str_mv 2008-12
2020-04-27T14:14:07Z
2020-04-27T14:14:07Z
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/acceptedVersion
http://purl.org/coar/resource_type/c_bdcc
info:ar-repo/semantics/tesisDeMaestria
format masterThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/20.500.12123/7151
url http://hdl.handle.net/20.500.12123/7151
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires
publisher.none.fl_str_mv Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires
dc.source.none.fl_str_mv reponame:INTA Digital (INTA)
instname:Instituto Nacional de Tecnología Agropecuaria
reponame_str INTA Digital (INTA)
collection INTA Digital (INTA)
instname_str Instituto Nacional de Tecnología Agropecuaria
repository.name.fl_str_mv INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuaria
repository.mail.fl_str_mv tripaldi.nicolas@inta.gob.ar
_version_ 1844619143716798464
score 12.559606