Detección de relaciones en informes médicos escritos en español

Autores
Minces Müller, Javier
Año de publicación
2020
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Cotik, Viviana Erica
Descripción
La detección automática de relaciones entre entidades es una tarea importante del procesamiento del lenguaje natural. En informes médicos, en particular, la extracción de relaciones es de suma utilidad. Permite, entre otras cosas, asociar de manera automática los hallazgos clínicos descriptos en el informe con el área del cuerpo en donde ocurrieron. Esto hace posible descubrir información, que puede asistir en la toma de decisiones, de manera mucho más rápida de lo que se haría mediante un análisis manual. Casi todos los métodos desarrollados para esta tarea están implementados para textos en idioma inglés. Estos incluyen métodos basados en reglas y en técnicas de aprendizaje automático. En este trabajo se realizó extracción de relaciones entre entidades nombradas sobre informes de ecografías escritos en español. Estos tienen la dificultad adicional de ser de naturaleza informal. Para esto se propusieron tres métodos: uno basado en co-ocurrencia de entidades, otro basado en reglas y finalmente uno basado en redes neuronales convolucionales. Para este último se entrenaron word embeddings en español para textos médicos. Se obtuvieron resultados alentadores para los últimos dos métodos, siendo mejores aquellos basados en reglas (F1 0.880 y 0.867 respectivamente). Se observó que la distancia entre las entidades relacionadas influye en los resultados.
The detection of relationships between words is an important task of natural language processing. When dealing specifically with medical reports, relation identification is important. It allows, among other things, finding clinical conditions in a report, associated with the body part where they occur. This makes it possible to discover information, which can assist in decision making, much faster than through manual analysis. Almost all methods developed for this task are for English texts. These include mainly rule-based methods and machine learning techniques. In this work, we focus on relation extraction for ultrasound reports in Spanish. These texts have the additional difficulty of being informal in nature. To this end, three methods are proposed: one based on co-occurrence, one based in rules and one based in convolutional neural networks. For the latter, word embeddings are trained in Spanish for medical texts. Encouraging results are obtained for the last two methods, the best of these with the rule-based method (an F1 score of 0.880 and 0.867). The results are better the closer the entities are.
Fil: Minces Müller, Javier. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
DETECCION DE RELACIONES
NLP
ESPAÑOL
BIONLP
INFORMES RADIOLOGICOS
APRENDIZAJE PROFUNDO
RELATION DETECTION
NLP
SPANISH
BIONLP
RADIOLOGY REPORTS
DEEP LEARNING
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000584_MincesMuller

id BDUBAFCEN_ac57cf255cc167b138322cafe1619ba3
oai_identifier_str seminario:seminario_nCOM000584_MincesMuller
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Detección de relaciones en informes médicos escritos en españolMinces Müller, JavierDETECCION DE RELACIONESNLPESPAÑOLBIONLPINFORMES RADIOLOGICOSAPRENDIZAJE PROFUNDORELATION DETECTIONNLPSPANISHBIONLPRADIOLOGY REPORTSDEEP LEARNINGLa detección automática de relaciones entre entidades es una tarea importante del procesamiento del lenguaje natural. En informes médicos, en particular, la extracción de relaciones es de suma utilidad. Permite, entre otras cosas, asociar de manera automática los hallazgos clínicos descriptos en el informe con el área del cuerpo en donde ocurrieron. Esto hace posible descubrir información, que puede asistir en la toma de decisiones, de manera mucho más rápida de lo que se haría mediante un análisis manual. Casi todos los métodos desarrollados para esta tarea están implementados para textos en idioma inglés. Estos incluyen métodos basados en reglas y en técnicas de aprendizaje automático. En este trabajo se realizó extracción de relaciones entre entidades nombradas sobre informes de ecografías escritos en español. Estos tienen la dificultad adicional de ser de naturaleza informal. Para esto se propusieron tres métodos: uno basado en co-ocurrencia de entidades, otro basado en reglas y finalmente uno basado en redes neuronales convolucionales. Para este último se entrenaron word embeddings en español para textos médicos. Se obtuvieron resultados alentadores para los últimos dos métodos, siendo mejores aquellos basados en reglas (F1 0.880 y 0.867 respectivamente). Se observó que la distancia entre las entidades relacionadas influye en los resultados.The detection of relationships between words is an important task of natural language processing. When dealing specifically with medical reports, relation identification is important. It allows, among other things, finding clinical conditions in a report, associated with the body part where they occur. This makes it possible to discover information, which can assist in decision making, much faster than through manual analysis. Almost all methods developed for this task are for English texts. These include mainly rule-based methods and machine learning techniques. In this work, we focus on relation extraction for ultrasound reports in Spanish. These texts have the additional difficulty of being informal in nature. To this end, three methods are proposed: one based on co-occurrence, one based in rules and one based in convolutional neural networks. For the latter, word embeddings are trained in Spanish for medical texts. Encouraging results are obtained for the last two methods, the best of these with the rule-based method (an F1 score of 0.880 and 0.867). The results are better the closer the entities are.Fil: Minces Müller, Javier. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesCotik, Viviana Erica2020info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000584_MincesMullerspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:36Zseminario:seminario_nCOM000584_MincesMullerInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:37.667Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Detección de relaciones en informes médicos escritos en español
title Detección de relaciones en informes médicos escritos en español
spellingShingle Detección de relaciones en informes médicos escritos en español
Minces Müller, Javier
DETECCION DE RELACIONES
NLP
ESPAÑOL
BIONLP
INFORMES RADIOLOGICOS
APRENDIZAJE PROFUNDO
RELATION DETECTION
NLP
SPANISH
BIONLP
RADIOLOGY REPORTS
DEEP LEARNING
title_short Detección de relaciones en informes médicos escritos en español
title_full Detección de relaciones en informes médicos escritos en español
title_fullStr Detección de relaciones en informes médicos escritos en español
title_full_unstemmed Detección de relaciones en informes médicos escritos en español
title_sort Detección de relaciones en informes médicos escritos en español
dc.creator.none.fl_str_mv Minces Müller, Javier
author Minces Müller, Javier
author_facet Minces Müller, Javier
author_role author
dc.contributor.none.fl_str_mv Cotik, Viviana Erica
dc.subject.none.fl_str_mv DETECCION DE RELACIONES
NLP
ESPAÑOL
BIONLP
INFORMES RADIOLOGICOS
APRENDIZAJE PROFUNDO
RELATION DETECTION
NLP
SPANISH
BIONLP
RADIOLOGY REPORTS
DEEP LEARNING
topic DETECCION DE RELACIONES
NLP
ESPAÑOL
BIONLP
INFORMES RADIOLOGICOS
APRENDIZAJE PROFUNDO
RELATION DETECTION
NLP
SPANISH
BIONLP
RADIOLOGY REPORTS
DEEP LEARNING
dc.description.none.fl_txt_mv La detección automática de relaciones entre entidades es una tarea importante del procesamiento del lenguaje natural. En informes médicos, en particular, la extracción de relaciones es de suma utilidad. Permite, entre otras cosas, asociar de manera automática los hallazgos clínicos descriptos en el informe con el área del cuerpo en donde ocurrieron. Esto hace posible descubrir información, que puede asistir en la toma de decisiones, de manera mucho más rápida de lo que se haría mediante un análisis manual. Casi todos los métodos desarrollados para esta tarea están implementados para textos en idioma inglés. Estos incluyen métodos basados en reglas y en técnicas de aprendizaje automático. En este trabajo se realizó extracción de relaciones entre entidades nombradas sobre informes de ecografías escritos en español. Estos tienen la dificultad adicional de ser de naturaleza informal. Para esto se propusieron tres métodos: uno basado en co-ocurrencia de entidades, otro basado en reglas y finalmente uno basado en redes neuronales convolucionales. Para este último se entrenaron word embeddings en español para textos médicos. Se obtuvieron resultados alentadores para los últimos dos métodos, siendo mejores aquellos basados en reglas (F1 0.880 y 0.867 respectivamente). Se observó que la distancia entre las entidades relacionadas influye en los resultados.
The detection of relationships between words is an important task of natural language processing. When dealing specifically with medical reports, relation identification is important. It allows, among other things, finding clinical conditions in a report, associated with the body part where they occur. This makes it possible to discover information, which can assist in decision making, much faster than through manual analysis. Almost all methods developed for this task are for English texts. These include mainly rule-based methods and machine learning techniques. In this work, we focus on relation extraction for ultrasound reports in Spanish. These texts have the additional difficulty of being informal in nature. To this end, three methods are proposed: one based on co-occurrence, one based in rules and one based in convolutional neural networks. For the latter, word embeddings are trained in Spanish for medical texts. Encouraging results are obtained for the last two methods, the best of these with the rule-based method (an F1 score of 0.880 and 0.867). The results are better the closer the entities are.
Fil: Minces Müller, Javier. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description La detección automática de relaciones entre entidades es una tarea importante del procesamiento del lenguaje natural. En informes médicos, en particular, la extracción de relaciones es de suma utilidad. Permite, entre otras cosas, asociar de manera automática los hallazgos clínicos descriptos en el informe con el área del cuerpo en donde ocurrieron. Esto hace posible descubrir información, que puede asistir en la toma de decisiones, de manera mucho más rápida de lo que se haría mediante un análisis manual. Casi todos los métodos desarrollados para esta tarea están implementados para textos en idioma inglés. Estos incluyen métodos basados en reglas y en técnicas de aprendizaje automático. En este trabajo se realizó extracción de relaciones entre entidades nombradas sobre informes de ecografías escritos en español. Estos tienen la dificultad adicional de ser de naturaleza informal. Para esto se propusieron tres métodos: uno basado en co-ocurrencia de entidades, otro basado en reglas y finalmente uno basado en redes neuronales convolucionales. Para este último se entrenaron word embeddings en español para textos médicos. Se obtuvieron resultados alentadores para los últimos dos métodos, siendo mejores aquellos basados en reglas (F1 0.880 y 0.867 respectivamente). Se observó que la distancia entre las entidades relacionadas influye en los resultados.
publishDate 2020
dc.date.none.fl_str_mv 2020
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000584_MincesMuller
url https://hdl.handle.net/20.500.12110/seminario_nCOM000584_MincesMuller
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618755198418944
score 13.070432