Clustering y ensambles de árboles de decisión aplicados sobre el microbioma humano

Authors
Santa María, Cristóbal; Soria, Marcelo
Publication Year
2014
Language
Spanish
Format
conference paper
Status
Published version
Description
El objetivo general es desarrollar un algoritmo de clasificación de estadíos de desarrollo de cáncer de colon y enfermedad de Crohn basado en la información aportada por el ADN del microbioma humano. A partir de la secuención del ADN microbiano presente en el intestino, cada secuencia genética es una instancia en una base de datos sobre la que es posible aplicar procedimientos de aprendizaje no supervisado para agrupar las secuencias correspondientes a un gen marcador por especies u otros taxones más generales. Tales categorizaciones tienen un sesgo, respecto de la caracterización clínica, que es producto de la secuenciación misma y de las técnicas que se aplican previas al agrupamiento. Conviene entonces explorar agrupamientos de todas las secuencias genéticas, y no ya solo las de un gen marcador, de acuerdo a la función que les corresponda en el metabolismo y que resulta distinta en la salud y en cada estadío de la enfermedad. Se espera que el estudio realizado interrelacionando ambos tipos de agrupamientos proporcione categorías de clasificación estables y compatibles con las caracterizaciones clínicas de la enfermedad. Con tales categorías se intentará aplicar métodos de aprendizaje supervisado como ensambles de árboles de decisión para obtener un clasificador que colabore en la clínica de prevención, diagnosis o prognosis. Se pretende además elaborar una "pipeline" para investigar la aplicación de técnicas de data mining al microbioma humano en el caso de una enfermedad en general. Se han realizado con éxito investigaciones en distintas ciudades del mundo que disponen de información digitalizada en grandes bases de datos. El denominado Sistema Único de Boleto Electrónico (SUBE) es un medio para abonar con una sola tarjeta viajes en colectivos, subtes y trenes adheridos, en la Región Metropolitana de Buenos Aires. Fue implementado durante 2011, cuenta ya con más de un millón de tarjetas emitidas y continúa extendiéndose a las principales ciudades del país. Esto permitirá contar con una base de datos lista para ser explotada con técnicas de data mining tales como clustering de usuarios, arboles de decisión y modelos que predigan con precisión las rutas optimas y tiempos de viaje entre otras aplicaciones posibles. La base de datos de viajes que genera SUBE junto con las características de los usuarios puede ser totalmente complementada con la tecnología GPS (Global Positioning System), disponible en gran parte de los vehículos, y también con el estado siempre dinámico de las vías, avenidas, calles, autopistas, semáforos, pronósticos del tiempo y una larga lista de bases de datos que pueden colaborar para realizar modelos predictivos de comportamiento y permitir así la toma de decisiones óptimas.
Eje: Bases de Datos y Minería de Datos
Red de Universidades con Carreras en Informática (RedUNCI)
Subject
Ciencias Informáticas
ADN
microbioma
cluster
Access level
Open access
License
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
Repository
SEDICI (UNLP)
Institution
Universidad Nacional de La Plata
OAI Identifier
oai:sedici.unlp.edu.ar:10915/41192