Clustering y ensambles de árboles de decisión aplicados sobre el microbioma humano

Autores
Santa María, Cristóbal; Soria, Marcelo
Año de publicación
2014
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
El objetivo general es desarrollar un algoritmo de clasificación de estadíos de desarrollo de cáncer de colon y enfermedad de Crohn basado en la información aportada por el ADN del microbioma humano. A partir de la secuención del ADN microbiano presente en el intestino, cada secuencia genética es una instancia en una base de datos sobre la que es posible aplicar procedimientos de aprendizaje no supervisado para agrupar las secuencias correspondientes a un gen marcador por especies u otros taxones más generales. Tales categorizaciones tienen un sesgo, respecto de la caracterización clínica, que es producto de la secuenciación misma y de las técnicas que se aplican previas al agrupamiento. Conviene entonces explorar agrupamientos de todas las secuencias genéticas, y no ya solo las de un gen marcador, de acuerdo a la función que les corresponda en el metabolismo y que resulta distinta en la salud y en cada estadío de la enfermedad. Se espera que el estudio realizado interrelacionando ambos tipos de agrupamientos proporcione categorías de clasificación estables y compatibles con las caracterizaciones clínicas de la enfermedad. Con tales categorías se intentará aplicar métodos de aprendizaje supervisado como ensambles de árboles de decisión para obtener un clasificador que colabore en la clínica de prevención, diagnosis o prognosis. Se pretende además elaborar una "pipeline" para investigar la aplicación de técnicas de data mining al microbioma humano en el caso de una enfermedad en general. Se han realizado con éxito investigaciones en distintas ciudades del mundo que disponen de información digitalizada en grandes bases de datos. El denominado Sistema Único de Boleto Electrónico (SUBE) es un medio para abonar con una sola tarjeta viajes en colectivos, subtes y trenes adheridos, en la Región Metropolitana de Buenos Aires. Fue implementado durante 2011, cuenta ya con más de un millón de tarjetas emitidas y continúa extendiéndose a las principales ciudades del país. Esto permitirá contar con una base de datos lista para ser explotada con técnicas de data mining tales como clustering de usuarios, arboles de decisión y modelos que predigan con precisión las rutas optimas y tiempos de viaje entre otras aplicaciones posibles. La base de datos de viajes que genera SUBE junto con las características de los usuarios puede ser totalmente complementada con la tecnología GPS (Global Positioning System), disponible en gran parte de los vehículos, y también con el estado siempre dinámico de las vías, avenidas, calles, autopistas, semáforos, pronósticos del tiempo y una larga lista de bases de datos que pueden colaborar para realizar modelos predictivos de comportamiento y permitir así la toma de decisiones óptimas.
Eje: Bases de Datos y Minería de Datos
Red de Universidades con Carreras en Informática (RedUNCI)
Materia
Ciencias Informáticas
ADN
microbioma
cluster
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/41192

id SEDICI_e13d8cf30c67b6338a5ddd2dcc0adde8
oai_identifier_str oai:sedici.unlp.edu.ar:10915/41192
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Clustering y ensambles de árboles de decisión aplicados sobre el microbioma humanoSanta María, CristóbalSoria, MarceloCiencias InformáticasADNmicrobiomaclusterEl objetivo general es desarrollar un algoritmo de clasificación de estadíos de desarrollo de cáncer de colon y enfermedad de Crohn basado en la información aportada por el ADN del microbioma humano. A partir de la secuención del ADN microbiano presente en el intestino, cada secuencia genética es una instancia en una base de datos sobre la que es posible aplicar procedimientos de aprendizaje no supervisado para agrupar las secuencias correspondientes a un gen marcador por especies u otros taxones más generales. Tales categorizaciones tienen un sesgo, respecto de la caracterización clínica, que es producto de la secuenciación misma y de las técnicas que se aplican previas al agrupamiento. Conviene entonces explorar agrupamientos de todas las secuencias genéticas, y no ya solo las de un gen marcador, de acuerdo a la función que les corresponda en el metabolismo y que resulta distinta en la salud y en cada estadío de la enfermedad. Se espera que el estudio realizado interrelacionando ambos tipos de agrupamientos proporcione categorías de clasificación estables y compatibles con las caracterizaciones clínicas de la enfermedad. Con tales categorías se intentará aplicar métodos de aprendizaje supervisado como ensambles de árboles de decisión para obtener un clasificador que colabore en la clínica de prevención, diagnosis o prognosis. Se pretende además elaborar una "pipeline" para investigar la aplicación de técnicas de data mining al microbioma humano en el caso de una enfermedad en general. Se han realizado con éxito investigaciones en distintas ciudades del mundo que disponen de información digitalizada en grandes bases de datos. El denominado Sistema Único de Boleto Electrónico (SUBE) es un medio para abonar con una sola tarjeta viajes en colectivos, subtes y trenes adheridos, en la Región Metropolitana de Buenos Aires. Fue implementado durante 2011, cuenta ya con más de un millón de tarjetas emitidas y continúa extendiéndose a las principales ciudades del país. Esto permitirá contar con una base de datos lista para ser explotada con técnicas de data mining tales como clustering de usuarios, arboles de decisión y modelos que predigan con precisión las rutas optimas y tiempos de viaje entre otras aplicaciones posibles. La base de datos de viajes que genera SUBE junto con las características de los usuarios puede ser totalmente complementada con la tecnología GPS (Global Positioning System), disponible en gran parte de los vehículos, y también con el estado siempre dinámico de las vías, avenidas, calles, autopistas, semáforos, pronósticos del tiempo y una larga lista de bases de datos que pueden colaborar para realizar modelos predictivos de comportamiento y permitir así la toma de decisiones óptimas.Eje: Bases de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI)2014-05info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf218-222http://sedici.unlp.edu.ar/handle/10915/41192spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/ar/Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:00:58Zoai:sedici.unlp.edu.ar:10915/41192Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:00:59.041SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Clustering y ensambles de árboles de decisión aplicados sobre el microbioma humano
title Clustering y ensambles de árboles de decisión aplicados sobre el microbioma humano
spellingShingle Clustering y ensambles de árboles de decisión aplicados sobre el microbioma humano
Santa María, Cristóbal
Ciencias Informáticas
ADN
microbioma
cluster
title_short Clustering y ensambles de árboles de decisión aplicados sobre el microbioma humano
title_full Clustering y ensambles de árboles de decisión aplicados sobre el microbioma humano
title_fullStr Clustering y ensambles de árboles de decisión aplicados sobre el microbioma humano
title_full_unstemmed Clustering y ensambles de árboles de decisión aplicados sobre el microbioma humano
title_sort Clustering y ensambles de árboles de decisión aplicados sobre el microbioma humano
dc.creator.none.fl_str_mv Santa María, Cristóbal
Soria, Marcelo
author Santa María, Cristóbal
author_facet Santa María, Cristóbal
Soria, Marcelo
author_role author
author2 Soria, Marcelo
author2_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
ADN
microbioma
cluster
topic Ciencias Informáticas
ADN
microbioma
cluster
dc.description.none.fl_txt_mv El objetivo general es desarrollar un algoritmo de clasificación de estadíos de desarrollo de cáncer de colon y enfermedad de Crohn basado en la información aportada por el ADN del microbioma humano. A partir de la secuención del ADN microbiano presente en el intestino, cada secuencia genética es una instancia en una base de datos sobre la que es posible aplicar procedimientos de aprendizaje no supervisado para agrupar las secuencias correspondientes a un gen marcador por especies u otros taxones más generales. Tales categorizaciones tienen un sesgo, respecto de la caracterización clínica, que es producto de la secuenciación misma y de las técnicas que se aplican previas al agrupamiento. Conviene entonces explorar agrupamientos de todas las secuencias genéticas, y no ya solo las de un gen marcador, de acuerdo a la función que les corresponda en el metabolismo y que resulta distinta en la salud y en cada estadío de la enfermedad. Se espera que el estudio realizado interrelacionando ambos tipos de agrupamientos proporcione categorías de clasificación estables y compatibles con las caracterizaciones clínicas de la enfermedad. Con tales categorías se intentará aplicar métodos de aprendizaje supervisado como ensambles de árboles de decisión para obtener un clasificador que colabore en la clínica de prevención, diagnosis o prognosis. Se pretende además elaborar una "pipeline" para investigar la aplicación de técnicas de data mining al microbioma humano en el caso de una enfermedad en general. Se han realizado con éxito investigaciones en distintas ciudades del mundo que disponen de información digitalizada en grandes bases de datos. El denominado Sistema Único de Boleto Electrónico (SUBE) es un medio para abonar con una sola tarjeta viajes en colectivos, subtes y trenes adheridos, en la Región Metropolitana de Buenos Aires. Fue implementado durante 2011, cuenta ya con más de un millón de tarjetas emitidas y continúa extendiéndose a las principales ciudades del país. Esto permitirá contar con una base de datos lista para ser explotada con técnicas de data mining tales como clustering de usuarios, arboles de decisión y modelos que predigan con precisión las rutas optimas y tiempos de viaje entre otras aplicaciones posibles. La base de datos de viajes que genera SUBE junto con las características de los usuarios puede ser totalmente complementada con la tecnología GPS (Global Positioning System), disponible en gran parte de los vehículos, y también con el estado siempre dinámico de las vías, avenidas, calles, autopistas, semáforos, pronósticos del tiempo y una larga lista de bases de datos que pueden colaborar para realizar modelos predictivos de comportamiento y permitir así la toma de decisiones óptimas.
Eje: Bases de Datos y Minería de Datos
Red de Universidades con Carreras en Informática (RedUNCI)
description El objetivo general es desarrollar un algoritmo de clasificación de estadíos de desarrollo de cáncer de colon y enfermedad de Crohn basado en la información aportada por el ADN del microbioma humano. A partir de la secuención del ADN microbiano presente en el intestino, cada secuencia genética es una instancia en una base de datos sobre la que es posible aplicar procedimientos de aprendizaje no supervisado para agrupar las secuencias correspondientes a un gen marcador por especies u otros taxones más generales. Tales categorizaciones tienen un sesgo, respecto de la caracterización clínica, que es producto de la secuenciación misma y de las técnicas que se aplican previas al agrupamiento. Conviene entonces explorar agrupamientos de todas las secuencias genéticas, y no ya solo las de un gen marcador, de acuerdo a la función que les corresponda en el metabolismo y que resulta distinta en la salud y en cada estadío de la enfermedad. Se espera que el estudio realizado interrelacionando ambos tipos de agrupamientos proporcione categorías de clasificación estables y compatibles con las caracterizaciones clínicas de la enfermedad. Con tales categorías se intentará aplicar métodos de aprendizaje supervisado como ensambles de árboles de decisión para obtener un clasificador que colabore en la clínica de prevención, diagnosis o prognosis. Se pretende además elaborar una "pipeline" para investigar la aplicación de técnicas de data mining al microbioma humano en el caso de una enfermedad en general. Se han realizado con éxito investigaciones en distintas ciudades del mundo que disponen de información digitalizada en grandes bases de datos. El denominado Sistema Único de Boleto Electrónico (SUBE) es un medio para abonar con una sola tarjeta viajes en colectivos, subtes y trenes adheridos, en la Región Metropolitana de Buenos Aires. Fue implementado durante 2011, cuenta ya con más de un millón de tarjetas emitidas y continúa extendiéndose a las principales ciudades del país. Esto permitirá contar con una base de datos lista para ser explotada con técnicas de data mining tales como clustering de usuarios, arboles de decisión y modelos que predigan con precisión las rutas optimas y tiempos de viaje entre otras aplicaciones posibles. La base de datos de viajes que genera SUBE junto con las características de los usuarios puede ser totalmente complementada con la tecnología GPS (Global Positioning System), disponible en gran parte de los vehículos, y también con el estado siempre dinámico de las vías, avenidas, calles, autopistas, semáforos, pronósticos del tiempo y una larga lista de bases de datos que pueden colaborar para realizar modelos predictivos de comportamiento y permitir así la toma de decisiones óptimas.
publishDate 2014
dc.date.none.fl_str_mv 2014-05
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/41192
url http://sedici.unlp.edu.ar/handle/10915/41192
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
dc.format.none.fl_str_mv application/pdf
218-222
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844615875710156800
score 13.070432