Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas
- Autores
- Taie, Armando
- Año de publicación
- 2008
- Idioma
- español castellano
- Tipo de recurso
- tesis de maestría
- Estado
- versión aceptada
- Colaborador/a o director/a de tesis
- Haedo, Ana Silvia
Paniego, Norma Beatriz
Soria, Marcelo - Descripción
- Tesis para obtener el grado de Magíster Scientiae en Explotación de Datos y Descubrimiento del Conocimiento, de la Universidad de Buenos Aires, en diciembre de 2008
Los experimentos de micromatrices de DNA permiten obtener información sobre la expresión conjunta de cientos o miles de genes, lo que ha producido un importante incremento en el volumen de datos disponibles en el área de las ciencias biológicas. Sin embargo, esta disponibilidad de información no ha implicado un aumento proporcional en el avance del conocimiento relacionado. La minería de datos (data-mining) surge como una tecnología emergente que sirve de soporte para el descubrimiento de conocimiento, que se revela a partir de patrones observables en datos estructurados o asociaciones que usualmente eran desconocidas. El presente trabajo consiste en desarrollar una metodología de análisis de datos que permita descubrir conocimientos biológicamente relevantes, partiendo de datos de micromatrices de arroz almacenados en repositorios públicos, enriqueciendo esta información mediante la asociación con los términos de la Ontología de Genes (Gene Ontology, GO). La GO propone establecer descripciones coherentes de los genes a partir del desarrollo de vocabularios controlados y proporciona tres redes estructuradas de términos controlados para describir los atributos de los genes que pueden ser aplicados a cualquier organismo. La metodología desarrollada se basa en la aplicación de paquetes de software de código abierto para el análisis de datos, como el lenguaje R, que provee un entorno de procesamiento estadístico y gráfico. R posee una instalación base y módulos que se agregan según el tipo de análisis que se realice. Entre ellos se encuentra el módulo Bioconductor que permite el análisis de datos bioinformáticos. Este tipo de iniciativas de código abierto y libre, facilitan la comunicación entre los usuarios creando comunidades que se van fortaleciendo y enriqueciendo a través de los conocimientos compartidos. Se utilizó un paquete especial del Bioconductor para consultar y rescatar información de la Base de Datos de la GO (GO.db). Estas aplicaciones, asociadas al administrador de Base de Datos MySQL, fueron usadas en el desarrollo de una pipeline para implementar los procedimientos de extracción del conocimiento propuestos en esta tesis. Se utilizaron como modelo, los datos crudos obtenidos de estudios independientes sobre perfiles de expresión de genes de arroz inducidos ante estreses abióticos.
DNA microarray technology allows scientists to study the expression of thousands of genes simultaneously; however the increase of biological data has not implied a proportional growth of related knowledge. Knowledge discovery from the amount of data collected depends on the development and appropriate use of data mining and statistical tools. This work involves the application of techniques for extracting knowledge implicit previously unknown and potentially useful from the biological information obtained from gene expression studies using microarrays. Three sets of experimental DNA microarray data from selected Oryza sativa abiotic stress experiments were analyzed using a pipeline based on MySQL database and R/Bioconductor routines. A secondary refinement process using the GO annotations was introduced to enrich the level of biological information included in the clusters. The result was a high-level biological significance categorization of microarray data based on GO resources.
EEA Corrientes
Fil: Taie, Armando. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Corrientes; Argentina - Materia
-
ADN
Minería de Datos
Ontología
Arroz
Genes
Procesamiento de Datos
DNA
Data Mining
Ontology
Rice
Data Processing - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
- Institución
- Instituto Nacional de Tecnología Agropecuaria
- OAI Identificador
- oai:localhost:20.500.12123/7151
Ver los metadatos del registro completo
id |
INTADig_caca4066336f38c4ba1d37e419f407bc |
---|---|
oai_identifier_str |
oai:localhost:20.500.12123/7151 |
network_acronym_str |
INTADig |
repository_id_str |
l |
network_name_str |
INTA Digital (INTA) |
spelling |
Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticasTaie, ArmandoADNMinería de DatosOntologíaArrozGenesProcesamiento de DatosDNAData MiningOntologyRiceData ProcessingTesis para obtener el grado de Magíster Scientiae en Explotación de Datos y Descubrimiento del Conocimiento, de la Universidad de Buenos Aires, en diciembre de 2008Los experimentos de micromatrices de DNA permiten obtener información sobre la expresión conjunta de cientos o miles de genes, lo que ha producido un importante incremento en el volumen de datos disponibles en el área de las ciencias biológicas. Sin embargo, esta disponibilidad de información no ha implicado un aumento proporcional en el avance del conocimiento relacionado. La minería de datos (data-mining) surge como una tecnología emergente que sirve de soporte para el descubrimiento de conocimiento, que se revela a partir de patrones observables en datos estructurados o asociaciones que usualmente eran desconocidas. El presente trabajo consiste en desarrollar una metodología de análisis de datos que permita descubrir conocimientos biológicamente relevantes, partiendo de datos de micromatrices de arroz almacenados en repositorios públicos, enriqueciendo esta información mediante la asociación con los términos de la Ontología de Genes (Gene Ontology, GO). La GO propone establecer descripciones coherentes de los genes a partir del desarrollo de vocabularios controlados y proporciona tres redes estructuradas de términos controlados para describir los atributos de los genes que pueden ser aplicados a cualquier organismo. La metodología desarrollada se basa en la aplicación de paquetes de software de código abierto para el análisis de datos, como el lenguaje R, que provee un entorno de procesamiento estadístico y gráfico. R posee una instalación base y módulos que se agregan según el tipo de análisis que se realice. Entre ellos se encuentra el módulo Bioconductor que permite el análisis de datos bioinformáticos. Este tipo de iniciativas de código abierto y libre, facilitan la comunicación entre los usuarios creando comunidades que se van fortaleciendo y enriqueciendo a través de los conocimientos compartidos. Se utilizó un paquete especial del Bioconductor para consultar y rescatar información de la Base de Datos de la GO (GO.db). Estas aplicaciones, asociadas al administrador de Base de Datos MySQL, fueron usadas en el desarrollo de una pipeline para implementar los procedimientos de extracción del conocimiento propuestos en esta tesis. Se utilizaron como modelo, los datos crudos obtenidos de estudios independientes sobre perfiles de expresión de genes de arroz inducidos ante estreses abióticos.DNA microarray technology allows scientists to study the expression of thousands of genes simultaneously; however the increase of biological data has not implied a proportional growth of related knowledge. Knowledge discovery from the amount of data collected depends on the development and appropriate use of data mining and statistical tools. This work involves the application of techniques for extracting knowledge implicit previously unknown and potentially useful from the biological information obtained from gene expression studies using microarrays. Three sets of experimental DNA microarray data from selected Oryza sativa abiotic stress experiments were analyzed using a pipeline based on MySQL database and R/Bioconductor routines. A secondary refinement process using the GO annotations was introduced to enrich the level of biological information included in the clusters. The result was a high-level biological significance categorization of microarray data based on GO resources.EEA CorrientesFil: Taie, Armando. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Corrientes; ArgentinaFacultad de Ciencias Exactas y Naturales, Universidad de Buenos AiresHaedo, Ana SilviaPaniego, Norma BeatrizSoria, Marcelo2020-04-27T14:14:07Z2020-04-27T14:14:07Z2008-12info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttp://hdl.handle.net/20.500.12123/7151spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:INTA Digital (INTA)instname:Instituto Nacional de Tecnología Agropecuaria2025-09-29T13:44:55Zoai:localhost:20.500.12123/7151instacron:INTAInstitucionalhttp://repositorio.inta.gob.ar/Organismo científico-tecnológicoNo correspondehttp://repositorio.inta.gob.ar/oai/requesttripaldi.nicolas@inta.gob.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:l2025-09-29 13:44:56.147INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuariafalse |
dc.title.none.fl_str_mv |
Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas |
title |
Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas |
spellingShingle |
Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas Taie, Armando ADN Minería de Datos Ontología Arroz Genes Procesamiento de Datos DNA Data Mining Ontology Rice Data Processing |
title_short |
Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas |
title_full |
Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas |
title_fullStr |
Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas |
title_full_unstemmed |
Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas |
title_sort |
Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas |
dc.creator.none.fl_str_mv |
Taie, Armando |
author |
Taie, Armando |
author_facet |
Taie, Armando |
author_role |
author |
dc.contributor.none.fl_str_mv |
Haedo, Ana Silvia Paniego, Norma Beatriz Soria, Marcelo |
dc.subject.none.fl_str_mv |
ADN Minería de Datos Ontología Arroz Genes Procesamiento de Datos DNA Data Mining Ontology Rice Data Processing |
topic |
ADN Minería de Datos Ontología Arroz Genes Procesamiento de Datos DNA Data Mining Ontology Rice Data Processing |
dc.description.none.fl_txt_mv |
Tesis para obtener el grado de Magíster Scientiae en Explotación de Datos y Descubrimiento del Conocimiento, de la Universidad de Buenos Aires, en diciembre de 2008 Los experimentos de micromatrices de DNA permiten obtener información sobre la expresión conjunta de cientos o miles de genes, lo que ha producido un importante incremento en el volumen de datos disponibles en el área de las ciencias biológicas. Sin embargo, esta disponibilidad de información no ha implicado un aumento proporcional en el avance del conocimiento relacionado. La minería de datos (data-mining) surge como una tecnología emergente que sirve de soporte para el descubrimiento de conocimiento, que se revela a partir de patrones observables en datos estructurados o asociaciones que usualmente eran desconocidas. El presente trabajo consiste en desarrollar una metodología de análisis de datos que permita descubrir conocimientos biológicamente relevantes, partiendo de datos de micromatrices de arroz almacenados en repositorios públicos, enriqueciendo esta información mediante la asociación con los términos de la Ontología de Genes (Gene Ontology, GO). La GO propone establecer descripciones coherentes de los genes a partir del desarrollo de vocabularios controlados y proporciona tres redes estructuradas de términos controlados para describir los atributos de los genes que pueden ser aplicados a cualquier organismo. La metodología desarrollada se basa en la aplicación de paquetes de software de código abierto para el análisis de datos, como el lenguaje R, que provee un entorno de procesamiento estadístico y gráfico. R posee una instalación base y módulos que se agregan según el tipo de análisis que se realice. Entre ellos se encuentra el módulo Bioconductor que permite el análisis de datos bioinformáticos. Este tipo de iniciativas de código abierto y libre, facilitan la comunicación entre los usuarios creando comunidades que se van fortaleciendo y enriqueciendo a través de los conocimientos compartidos. Se utilizó un paquete especial del Bioconductor para consultar y rescatar información de la Base de Datos de la GO (GO.db). Estas aplicaciones, asociadas al administrador de Base de Datos MySQL, fueron usadas en el desarrollo de una pipeline para implementar los procedimientos de extracción del conocimiento propuestos en esta tesis. Se utilizaron como modelo, los datos crudos obtenidos de estudios independientes sobre perfiles de expresión de genes de arroz inducidos ante estreses abióticos. DNA microarray technology allows scientists to study the expression of thousands of genes simultaneously; however the increase of biological data has not implied a proportional growth of related knowledge. Knowledge discovery from the amount of data collected depends on the development and appropriate use of data mining and statistical tools. This work involves the application of techniques for extracting knowledge implicit previously unknown and potentially useful from the biological information obtained from gene expression studies using microarrays. Three sets of experimental DNA microarray data from selected Oryza sativa abiotic stress experiments were analyzed using a pipeline based on MySQL database and R/Bioconductor routines. A secondary refinement process using the GO annotations was introduced to enrich the level of biological information included in the clusters. The result was a high-level biological significance categorization of microarray data based on GO resources. EEA Corrientes Fil: Taie, Armando. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Corrientes; Argentina |
description |
Tesis para obtener el grado de Magíster Scientiae en Explotación de Datos y Descubrimiento del Conocimiento, de la Universidad de Buenos Aires, en diciembre de 2008 |
publishDate |
2008 |
dc.date.none.fl_str_mv |
2008-12 2020-04-27T14:14:07Z 2020-04-27T14:14:07Z |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/masterThesis info:eu-repo/semantics/acceptedVersion http://purl.org/coar/resource_type/c_bdcc info:ar-repo/semantics/tesisDeMaestria |
format |
masterThesis |
status_str |
acceptedVersion |
dc.identifier.none.fl_str_mv |
http://hdl.handle.net/20.500.12123/7151 |
url |
http://hdl.handle.net/20.500.12123/7151 |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires |
publisher.none.fl_str_mv |
Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires |
dc.source.none.fl_str_mv |
reponame:INTA Digital (INTA) instname:Instituto Nacional de Tecnología Agropecuaria |
reponame_str |
INTA Digital (INTA) |
collection |
INTA Digital (INTA) |
instname_str |
Instituto Nacional de Tecnología Agropecuaria |
repository.name.fl_str_mv |
INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuaria |
repository.mail.fl_str_mv |
tripaldi.nicolas@inta.gob.ar |
_version_ |
1844619143716798464 |
score |
12.559606 |