Clasificación automática de estudios epidemiológicos referentes a distintos tipos de cáncer utilizando técnicas de minería de texto y meta-estimadores

Autores
Mounier, Mónica R.; Acosta, Karina B.; Favret, Fabián; Zamudio, Eduardo
Año de publicación
2018
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Fil: Mounier, Mónica R. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales; Argentina.
Fil: Mounier, Mónica R. Universidad Gastón Dachary; Argentina.
Fil: Acosta, Karina B. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales; Argentina.
Fil: Favret, Fabián. Universidad Gastón Dachary; Argentina.
Fil: Zamudio, Eduardo. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales; Argentina.
En la última década se ha visto un enorme crecimiento en la cantidad de datos biomédicos experimentales y computacionales, específicamente en las áreas de genómica y proteómica. Este crecimiento ha aumentado el número de publicaciones biomédicas referentes a hallazgos en estudios epidemiológicos de tipo caso-control, que reflejan la asociación de polimorfismos de nucleótidos simples (SNPs) y su asociación a distintos tipos de cáncer. Debido a ello, hay un gran interés por parte de la comunidad científica en herramientas de minería para ayudar a clasificar la abundante documentación disponible, a fin de encontrar datos relevantes para tareas de análisis específicas. Los SNPs son variaciones de la secuencia de ácido desoxirribonucleico (ADN) que se producen cuando se altera un solo nucleótido (A, T, C o G) en el genoma humano. La minería de texto (MT) procesa la información no estructurada y extrae índices numéricos desde el texto, a fin de que sea accesible para algoritmos de minería de datos. El objetivo principal ha sido el desarrollo e implementación de una herramienta bioinformática de clasificación automática de estudios epidemiológicos de tipo caso-control referentes a SNPs relacionados a distintos tipos de cáncer utilizando técnicas de MT, a partir de sus metadatos. Para el presente trabajo ha sido adaptada la metodología CRISP-DM, cuyas etapas son: recuperación y pre-procesamiento de metadatos, representación de datos y descubrimiento del conocimiento. Fue elaborado un dataset a partir de los metadatos de 198 citas bibliográficas de artículos científicos elegidos aleatoriamente, y clasificadas por el experto en dos categorías: “Asociados” (169 artículos) y “No Asociados” (29 artículos). Un problema intrínseco es el desbalanceo de clases, dado que la mayoría de los estudios epidemiológicos reflejan asociaciones de los SNP a las enfermedades y no lo contrario. La herramienta desarrollada consta de los siguientes módulos: consulta, recuperación, pre-procesamiento, clasificación, visualización y retroalimentación. Para su implementación fueron utilizadas las siguientes tecnologías: Biopython, E-utilities y genenames.org Rest Web Service, así también como Django para el desarrollo de la interfaz de consulta web. Para la representación de los metadatos de los artículos fue utilizado el Term Frequency - Inverse Document Frequency (TF-IDF) de los unigramas de los mismos. Para la clasificación fue utilizado el meta-estimador Bagging, para tres técnicas de clasificación: Support Vector Machine (SVM), K-Nearest Neighbors (KNN) y Naives Bayes (NB), utilizando el 60 % del dataset para entrenamiento y el 40 % restante para validación, donde cada meta-estimador fue entrenado y validado sobre el mismo subconjunto de datos para comparar los resultados obtenidos. Los resultados obtenidos fueron superiores para el meta-estimador Bagging con NB, alcanzando una exactitud del 0.98 %, lo cual se obtuvo a partir de los resultados de la matriz de confusión obtenida a partir del subconjunto de validación conformado por 79 artículos, en donde de 65 artículos correspondientes a la categoría “Asociados”, 64 artículos fueron clasificados correctamente, y de los 14 artículos pertenecientes a la categoría “No Asociados”, 6 fueron clasificados correctamente. Así también, el mismo meta-estimador ha alcanzado una precisión de 0.88, una cobertura de 0.89, y un F1-Score de 0.87.
Materia
Bioinformática
Minería de Textos
Meta-estimadores
Polimorfismos
Clasificación Automática
Estudios Epidemiológicos
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Atribución-NoComercial-CompartirIgual 4.0 Internacional
Repositorio
Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM)
Institución
Universidad Nacional de Misiones
OAI Identificador
oai:rid.unam.edu.ar:20.500.12219/5392

id RIDUNaM_8bc136adc8a6e495565ba0c7bc3fd5a2
oai_identifier_str oai:rid.unam.edu.ar:20.500.12219/5392
network_acronym_str RIDUNaM
repository_id_str
network_name_str Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM)
spelling Clasificación automática de estudios epidemiológicos referentes a distintos tipos de cáncer utilizando técnicas de minería de texto y meta-estimadoresMounier, Mónica R.Acosta, Karina B.Favret, FabiánZamudio, EduardoBioinformáticaMinería de TextosMeta-estimadoresPolimorfismosClasificación AutomáticaEstudios EpidemiológicosFil: Mounier, Mónica R. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales; Argentina.Fil: Mounier, Mónica R. Universidad Gastón Dachary; Argentina.Fil: Acosta, Karina B. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales; Argentina.Fil: Favret, Fabián. Universidad Gastón Dachary; Argentina.Fil: Zamudio, Eduardo. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales; Argentina.En la última década se ha visto un enorme crecimiento en la cantidad de datos biomédicos experimentales y computacionales, específicamente en las áreas de genómica y proteómica. Este crecimiento ha aumentado el número de publicaciones biomédicas referentes a hallazgos en estudios epidemiológicos de tipo caso-control, que reflejan la asociación de polimorfismos de nucleótidos simples (SNPs) y su asociación a distintos tipos de cáncer. Debido a ello, hay un gran interés por parte de la comunidad científica en herramientas de minería para ayudar a clasificar la abundante documentación disponible, a fin de encontrar datos relevantes para tareas de análisis específicas. Los SNPs son variaciones de la secuencia de ácido desoxirribonucleico (ADN) que se producen cuando se altera un solo nucleótido (A, T, C o G) en el genoma humano. La minería de texto (MT) procesa la información no estructurada y extrae índices numéricos desde el texto, a fin de que sea accesible para algoritmos de minería de datos. El objetivo principal ha sido el desarrollo e implementación de una herramienta bioinformática de clasificación automática de estudios epidemiológicos de tipo caso-control referentes a SNPs relacionados a distintos tipos de cáncer utilizando técnicas de MT, a partir de sus metadatos. Para el presente trabajo ha sido adaptada la metodología CRISP-DM, cuyas etapas son: recuperación y pre-procesamiento de metadatos, representación de datos y descubrimiento del conocimiento. Fue elaborado un dataset a partir de los metadatos de 198 citas bibliográficas de artículos científicos elegidos aleatoriamente, y clasificadas por el experto en dos categorías: “Asociados” (169 artículos) y “No Asociados” (29 artículos). Un problema intrínseco es el desbalanceo de clases, dado que la mayoría de los estudios epidemiológicos reflejan asociaciones de los SNP a las enfermedades y no lo contrario. La herramienta desarrollada consta de los siguientes módulos: consulta, recuperación, pre-procesamiento, clasificación, visualización y retroalimentación. Para su implementación fueron utilizadas las siguientes tecnologías: Biopython, E-utilities y genenames.org Rest Web Service, así también como Django para el desarrollo de la interfaz de consulta web. Para la representación de los metadatos de los artículos fue utilizado el Term Frequency - Inverse Document Frequency (TF-IDF) de los unigramas de los mismos. Para la clasificación fue utilizado el meta-estimador Bagging, para tres técnicas de clasificación: Support Vector Machine (SVM), K-Nearest Neighbors (KNN) y Naives Bayes (NB), utilizando el 60 % del dataset para entrenamiento y el 40 % restante para validación, donde cada meta-estimador fue entrenado y validado sobre el mismo subconjunto de datos para comparar los resultados obtenidos. Los resultados obtenidos fueron superiores para el meta-estimador Bagging con NB, alcanzando una exactitud del 0.98 %, lo cual se obtuvo a partir de los resultados de la matriz de confusión obtenida a partir del subconjunto de validación conformado por 79 artículos, en donde de 65 artículos correspondientes a la categoría “Asociados”, 64 artículos fueron clasificados correctamente, y de los 14 artículos pertenecientes a la categoría “No Asociados”, 6 fueron clasificados correctamente. Así también, el mismo meta-estimador ha alcanzado una precisión de 0.88, una cobertura de 0.89, y un F1-Score de 0.87.Universidad Nacional de Misiones. Facultad de Ciencias Forestales. Secretaría de Ciencia, Técnica y Posgrado2018-05-11info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfapplication/pdf121.5 KBhttps://hdl.handle.net/20.500.12219/5392spainfo:eu-repo/semantics/openAccessAtribución-NoComercial-CompartirIgual 4.0 Internacionalhttp://creativecommons.org/licenses/by-nc-sa/4.0/reponame:Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM)instname:Universidad Nacional de Misiones2025-09-04T11:43:35Zoai:rid.unam.edu.ar:20.500.12219/5392instacron:UNAMInstitucionalhttps://rid.unam.edu.ar/Universidad públicahttps://www.unam.edu.ar/https://rid.unam.edu.ar/oai/rsnrdArgentinaopendoar:2025-09-04 11:43:35.864Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM) - Universidad Nacional de Misionesfalse
dc.title.none.fl_str_mv Clasificación automática de estudios epidemiológicos referentes a distintos tipos de cáncer utilizando técnicas de minería de texto y meta-estimadores
title Clasificación automática de estudios epidemiológicos referentes a distintos tipos de cáncer utilizando técnicas de minería de texto y meta-estimadores
spellingShingle Clasificación automática de estudios epidemiológicos referentes a distintos tipos de cáncer utilizando técnicas de minería de texto y meta-estimadores
Mounier, Mónica R.
Bioinformática
Minería de Textos
Meta-estimadores
Polimorfismos
Clasificación Automática
Estudios Epidemiológicos
title_short Clasificación automática de estudios epidemiológicos referentes a distintos tipos de cáncer utilizando técnicas de minería de texto y meta-estimadores
title_full Clasificación automática de estudios epidemiológicos referentes a distintos tipos de cáncer utilizando técnicas de minería de texto y meta-estimadores
title_fullStr Clasificación automática de estudios epidemiológicos referentes a distintos tipos de cáncer utilizando técnicas de minería de texto y meta-estimadores
title_full_unstemmed Clasificación automática de estudios epidemiológicos referentes a distintos tipos de cáncer utilizando técnicas de minería de texto y meta-estimadores
title_sort Clasificación automática de estudios epidemiológicos referentes a distintos tipos de cáncer utilizando técnicas de minería de texto y meta-estimadores
dc.creator.none.fl_str_mv Mounier, Mónica R.
Acosta, Karina B.
Favret, Fabián
Zamudio, Eduardo
author Mounier, Mónica R.
author_facet Mounier, Mónica R.
Acosta, Karina B.
Favret, Fabián
Zamudio, Eduardo
author_role author
author2 Acosta, Karina B.
Favret, Fabián
Zamudio, Eduardo
author2_role author
author
author
dc.subject.none.fl_str_mv Bioinformática
Minería de Textos
Meta-estimadores
Polimorfismos
Clasificación Automática
Estudios Epidemiológicos
topic Bioinformática
Minería de Textos
Meta-estimadores
Polimorfismos
Clasificación Automática
Estudios Epidemiológicos
dc.description.none.fl_txt_mv Fil: Mounier, Mónica R. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales; Argentina.
Fil: Mounier, Mónica R. Universidad Gastón Dachary; Argentina.
Fil: Acosta, Karina B. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales; Argentina.
Fil: Favret, Fabián. Universidad Gastón Dachary; Argentina.
Fil: Zamudio, Eduardo. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales; Argentina.
En la última década se ha visto un enorme crecimiento en la cantidad de datos biomédicos experimentales y computacionales, específicamente en las áreas de genómica y proteómica. Este crecimiento ha aumentado el número de publicaciones biomédicas referentes a hallazgos en estudios epidemiológicos de tipo caso-control, que reflejan la asociación de polimorfismos de nucleótidos simples (SNPs) y su asociación a distintos tipos de cáncer. Debido a ello, hay un gran interés por parte de la comunidad científica en herramientas de minería para ayudar a clasificar la abundante documentación disponible, a fin de encontrar datos relevantes para tareas de análisis específicas. Los SNPs son variaciones de la secuencia de ácido desoxirribonucleico (ADN) que se producen cuando se altera un solo nucleótido (A, T, C o G) en el genoma humano. La minería de texto (MT) procesa la información no estructurada y extrae índices numéricos desde el texto, a fin de que sea accesible para algoritmos de minería de datos. El objetivo principal ha sido el desarrollo e implementación de una herramienta bioinformática de clasificación automática de estudios epidemiológicos de tipo caso-control referentes a SNPs relacionados a distintos tipos de cáncer utilizando técnicas de MT, a partir de sus metadatos. Para el presente trabajo ha sido adaptada la metodología CRISP-DM, cuyas etapas son: recuperación y pre-procesamiento de metadatos, representación de datos y descubrimiento del conocimiento. Fue elaborado un dataset a partir de los metadatos de 198 citas bibliográficas de artículos científicos elegidos aleatoriamente, y clasificadas por el experto en dos categorías: “Asociados” (169 artículos) y “No Asociados” (29 artículos). Un problema intrínseco es el desbalanceo de clases, dado que la mayoría de los estudios epidemiológicos reflejan asociaciones de los SNP a las enfermedades y no lo contrario. La herramienta desarrollada consta de los siguientes módulos: consulta, recuperación, pre-procesamiento, clasificación, visualización y retroalimentación. Para su implementación fueron utilizadas las siguientes tecnologías: Biopython, E-utilities y genenames.org Rest Web Service, así también como Django para el desarrollo de la interfaz de consulta web. Para la representación de los metadatos de los artículos fue utilizado el Term Frequency - Inverse Document Frequency (TF-IDF) de los unigramas de los mismos. Para la clasificación fue utilizado el meta-estimador Bagging, para tres técnicas de clasificación: Support Vector Machine (SVM), K-Nearest Neighbors (KNN) y Naives Bayes (NB), utilizando el 60 % del dataset para entrenamiento y el 40 % restante para validación, donde cada meta-estimador fue entrenado y validado sobre el mismo subconjunto de datos para comparar los resultados obtenidos. Los resultados obtenidos fueron superiores para el meta-estimador Bagging con NB, alcanzando una exactitud del 0.98 %, lo cual se obtuvo a partir de los resultados de la matriz de confusión obtenida a partir del subconjunto de validación conformado por 79 artículos, en donde de 65 artículos correspondientes a la categoría “Asociados”, 64 artículos fueron clasificados correctamente, y de los 14 artículos pertenecientes a la categoría “No Asociados”, 6 fueron clasificados correctamente. Así también, el mismo meta-estimador ha alcanzado una precisión de 0.88, una cobertura de 0.89, y un F1-Score de 0.87.
description Fil: Mounier, Mónica R. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales; Argentina.
publishDate 2018
dc.date.none.fl_str_mv 2018-05-11
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12219/5392
url https://hdl.handle.net/20.500.12219/5392
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
Atribución-NoComercial-CompartirIgual 4.0 Internacional
http://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv Atribución-NoComercial-CompartirIgual 4.0 Internacional
http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.none.fl_str_mv application/pdf
application/pdf
121.5 KB
dc.publisher.none.fl_str_mv Universidad Nacional de Misiones. Facultad de Ciencias Forestales. Secretaría de Ciencia, Técnica y Posgrado
publisher.none.fl_str_mv Universidad Nacional de Misiones. Facultad de Ciencias Forestales. Secretaría de Ciencia, Técnica y Posgrado
dc.source.none.fl_str_mv reponame:Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM)
instname:Universidad Nacional de Misiones
reponame_str Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM)
collection Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM)
instname_str Universidad Nacional de Misiones
repository.name.fl_str_mv Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM) - Universidad Nacional de Misiones
repository.mail.fl_str_mv
_version_ 1842346491574747136
score 12.623145