Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español

Autores
Costa, Manuel J. J.
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Cotik, Viviana Erica
Descripción
La creciente digitalización de los procesos médicos ha generado una gran cantidad de datos textuales, como informes de estudios clínicos, que permiten mejorar procesos a través de la automatización de la extracción de información de los mismos. Sin embargo, esta última presenta desafíos significativos, especialmente en español, debido a la escasez de recursos en este idioma y al uso de vocabulario especializado. También algunos de estos textos suelen tener abreviaturas, errores ortográficos y de tipeo, lo que agrega una complejidad adicional. Este trabajo busca contribuir al campo del Procesamiento del Lenguaje Natural Biomédico (BioNLP, por sus siglas en inglés) mediante el desarrollo de mejores representaciones de textos que optimicen la extracción de información para informes clínicos escritos en español. En esta tesis se desarrolla un estudio sobre el uso de word embeddings y modelos de lenguaje para informes de ecografía escritos en español. Se proponen y evalúan diferentes modelos de embeddings, incluyendo técnicas estáticas como FastText y modelos basados en arquitecturas contextuales como Transformers y BiLSTM. Los embeddings se entrenaron utilizando un corpus anonimizado de más de 80 mil informes de ecografías. Se realizaron dos tipos de evaluaciones sobre los embeddings: una extrínseca y una intrínseca. Para la evaluación extrínseca se utilizó la tarea de reconocimiento de entidades nombradas con el conjunto de datos de la competencia SpRadIE. Además, se realiza un estudio de ablación para intentar establecer un vínculo más directo entre el uso de las representaciones y el rendimiento obtenido por los modelos. Para la evaluación intrínseca, se presenta un marco basado en análisis cualitativo, para medir la calidad de los embeddings en dominios donde no existen benchmarks estandarizados. Los resultados obtenidos muestran mejoras sobre el estado del arte para la tarea de reconocimiento de entidades nombradas de SpRadIE, destacando el impacto de usar representaciones contextuales adaptadas al sub-dominio específico de la tarea. Observamos que los mejores resultados del reconocimiento de entidades nombradas se obtienen con modelos basados en Transformers, sin embargo las representaciones generadas a partir de BiLSTM parecen capturar información semántica más rica, como evidencian los estudios de ablación y el análisis cualitativo.
The growing digitalization of medical processes has generated a large volume of tex- tual data, such as clinical study reports, which allow for process improvements through the automation of information extraction. However, this task presents significant challenges, especially in Spanish, due to the scarcity of resources in this language and the use of spe- cialized vocabulary. In addition, some of these texts often contain abbreviations, spelling errors, and typos, adding an extra layer of complexity. This work aims to contribute to the field of Biomedical Natural Language Processing (BioNLP) by developing better text representations to enhance information extraction from clinical reports written in Spanish. This thesis presents a study on the use of word embeddings and language models for ul- trasound reports written in Spanish. Different embedding models are proposed and evalua- ted, including static techniques such as FastText and models based on contextual architec- tures like Transformers and BiLSTM. The embeddings were trained using an anonymized corpus of more than 80,000 ultrasound reports. Extrinsic and intric evaluation methods were carried out. For the extrinsic evaluation, the chosen task was named entity recogni- tion, using the dataset from the SpRadIE competition. Additionally, an ablation study was conducted to better understand the relationship between the use of these representations and the performance of the models. For the intrinsic evaluation, a framework based on qualitative analysis is presented to assess the quality of the embeddings in domains where standardized benchmarks are not available. The results show improvements over the state of the art for the named entity re- cognition task in SpRadIE, highlighting the impact of using contextual representations tailored to the specific subdomain. We observe that the best results are obtained with Transformer-based models; however, the representations generated by BiLSTM appear to capture richer semantic information, as evidenced by the ablation studies and qualitative analysis.
Fil: Costa, Manuel J. J.. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
EMBEDDINGS
RECONOCIMIENTO DE ENTIDADES NOMBRADAS
BioNLP EN ESPAÑOL
INFORMES CLINICOS
ECOGRAFIAS
TRANSFORMERS
BiLSTM
FASTTEXT
EMBEDDINGS
NAMED ENTITY RECOGNITION
SPANISH BioNLP
CLINICAL REPORTS
ULTRASOUND
TRANSFORMERS
BiLSTM
FASTTEXT
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000840_Costa

id BDUBAFCEN_6c3a1fad5660839df71a32e34f455679
oai_identifier_str seminario:seminario_nCOM000840_Costa
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en españolContextualized word-embeddings for name entity recognition in spanish radiological textsCosta, Manuel J. J.EMBEDDINGSRECONOCIMIENTO DE ENTIDADES NOMBRADASBioNLP EN ESPAÑOLINFORMES CLINICOSECOGRAFIASTRANSFORMERSBiLSTMFASTTEXTEMBEDDINGSNAMED ENTITY RECOGNITIONSPANISH BioNLPCLINICAL REPORTSULTRASOUNDTRANSFORMERSBiLSTMFASTTEXTLa creciente digitalización de los procesos médicos ha generado una gran cantidad de datos textuales, como informes de estudios clínicos, que permiten mejorar procesos a través de la automatización de la extracción de información de los mismos. Sin embargo, esta última presenta desafíos significativos, especialmente en español, debido a la escasez de recursos en este idioma y al uso de vocabulario especializado. También algunos de estos textos suelen tener abreviaturas, errores ortográficos y de tipeo, lo que agrega una complejidad adicional. Este trabajo busca contribuir al campo del Procesamiento del Lenguaje Natural Biomédico (BioNLP, por sus siglas en inglés) mediante el desarrollo de mejores representaciones de textos que optimicen la extracción de información para informes clínicos escritos en español. En esta tesis se desarrolla un estudio sobre el uso de word embeddings y modelos de lenguaje para informes de ecografía escritos en español. Se proponen y evalúan diferentes modelos de embeddings, incluyendo técnicas estáticas como FastText y modelos basados en arquitecturas contextuales como Transformers y BiLSTM. Los embeddings se entrenaron utilizando un corpus anonimizado de más de 80 mil informes de ecografías. Se realizaron dos tipos de evaluaciones sobre los embeddings: una extrínseca y una intrínseca. Para la evaluación extrínseca se utilizó la tarea de reconocimiento de entidades nombradas con el conjunto de datos de la competencia SpRadIE. Además, se realiza un estudio de ablación para intentar establecer un vínculo más directo entre el uso de las representaciones y el rendimiento obtenido por los modelos. Para la evaluación intrínseca, se presenta un marco basado en análisis cualitativo, para medir la calidad de los embeddings en dominios donde no existen benchmarks estandarizados. Los resultados obtenidos muestran mejoras sobre el estado del arte para la tarea de reconocimiento de entidades nombradas de SpRadIE, destacando el impacto de usar representaciones contextuales adaptadas al sub-dominio específico de la tarea. Observamos que los mejores resultados del reconocimiento de entidades nombradas se obtienen con modelos basados en Transformers, sin embargo las representaciones generadas a partir de BiLSTM parecen capturar información semántica más rica, como evidencian los estudios de ablación y el análisis cualitativo.The growing digitalization of medical processes has generated a large volume of tex- tual data, such as clinical study reports, which allow for process improvements through the automation of information extraction. However, this task presents significant challenges, especially in Spanish, due to the scarcity of resources in this language and the use of spe- cialized vocabulary. In addition, some of these texts often contain abbreviations, spelling errors, and typos, adding an extra layer of complexity. This work aims to contribute to the field of Biomedical Natural Language Processing (BioNLP) by developing better text representations to enhance information extraction from clinical reports written in Spanish. This thesis presents a study on the use of word embeddings and language models for ul- trasound reports written in Spanish. Different embedding models are proposed and evalua- ted, including static techniques such as FastText and models based on contextual architec- tures like Transformers and BiLSTM. The embeddings were trained using an anonymized corpus of more than 80,000 ultrasound reports. Extrinsic and intric evaluation methods were carried out. For the extrinsic evaluation, the chosen task was named entity recogni- tion, using the dataset from the SpRadIE competition. Additionally, an ablation study was conducted to better understand the relationship between the use of these representations and the performance of the models. For the intrinsic evaluation, a framework based on qualitative analysis is presented to assess the quality of the embeddings in domains where standardized benchmarks are not available. The results show improvements over the state of the art for the named entity re- cognition task in SpRadIE, highlighting the impact of using contextual representations tailored to the specific subdomain. We observe that the best results are obtained with Transformer-based models; however, the representations generated by BiLSTM appear to capture richer semantic information, as evidenced by the ablation studies and qualitative analysis.Fil: Costa, Manuel J. J.. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesCotik, Viviana Erica2025-05-26info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000840_Costaspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-01-08T10:37:26Zseminario:seminario_nCOM000840_CostaInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-01-08 10:37:26.935Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español
Contextualized word-embeddings for name entity recognition in spanish radiological texts
title Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español
spellingShingle Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español
Costa, Manuel J. J.
EMBEDDINGS
RECONOCIMIENTO DE ENTIDADES NOMBRADAS
BioNLP EN ESPAÑOL
INFORMES CLINICOS
ECOGRAFIAS
TRANSFORMERS
BiLSTM
FASTTEXT
EMBEDDINGS
NAMED ENTITY RECOGNITION
SPANISH BioNLP
CLINICAL REPORTS
ULTRASOUND
TRANSFORMERS
BiLSTM
FASTTEXT
title_short Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español
title_full Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español
title_fullStr Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español
title_full_unstemmed Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español
title_sort Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español
dc.creator.none.fl_str_mv Costa, Manuel J. J.
author Costa, Manuel J. J.
author_facet Costa, Manuel J. J.
author_role author
dc.contributor.none.fl_str_mv Cotik, Viviana Erica
dc.subject.none.fl_str_mv EMBEDDINGS
RECONOCIMIENTO DE ENTIDADES NOMBRADAS
BioNLP EN ESPAÑOL
INFORMES CLINICOS
ECOGRAFIAS
TRANSFORMERS
BiLSTM
FASTTEXT
EMBEDDINGS
NAMED ENTITY RECOGNITION
SPANISH BioNLP
CLINICAL REPORTS
ULTRASOUND
TRANSFORMERS
BiLSTM
FASTTEXT
topic EMBEDDINGS
RECONOCIMIENTO DE ENTIDADES NOMBRADAS
BioNLP EN ESPAÑOL
INFORMES CLINICOS
ECOGRAFIAS
TRANSFORMERS
BiLSTM
FASTTEXT
EMBEDDINGS
NAMED ENTITY RECOGNITION
SPANISH BioNLP
CLINICAL REPORTS
ULTRASOUND
TRANSFORMERS
BiLSTM
FASTTEXT
dc.description.none.fl_txt_mv La creciente digitalización de los procesos médicos ha generado una gran cantidad de datos textuales, como informes de estudios clínicos, que permiten mejorar procesos a través de la automatización de la extracción de información de los mismos. Sin embargo, esta última presenta desafíos significativos, especialmente en español, debido a la escasez de recursos en este idioma y al uso de vocabulario especializado. También algunos de estos textos suelen tener abreviaturas, errores ortográficos y de tipeo, lo que agrega una complejidad adicional. Este trabajo busca contribuir al campo del Procesamiento del Lenguaje Natural Biomédico (BioNLP, por sus siglas en inglés) mediante el desarrollo de mejores representaciones de textos que optimicen la extracción de información para informes clínicos escritos en español. En esta tesis se desarrolla un estudio sobre el uso de word embeddings y modelos de lenguaje para informes de ecografía escritos en español. Se proponen y evalúan diferentes modelos de embeddings, incluyendo técnicas estáticas como FastText y modelos basados en arquitecturas contextuales como Transformers y BiLSTM. Los embeddings se entrenaron utilizando un corpus anonimizado de más de 80 mil informes de ecografías. Se realizaron dos tipos de evaluaciones sobre los embeddings: una extrínseca y una intrínseca. Para la evaluación extrínseca se utilizó la tarea de reconocimiento de entidades nombradas con el conjunto de datos de la competencia SpRadIE. Además, se realiza un estudio de ablación para intentar establecer un vínculo más directo entre el uso de las representaciones y el rendimiento obtenido por los modelos. Para la evaluación intrínseca, se presenta un marco basado en análisis cualitativo, para medir la calidad de los embeddings en dominios donde no existen benchmarks estandarizados. Los resultados obtenidos muestran mejoras sobre el estado del arte para la tarea de reconocimiento de entidades nombradas de SpRadIE, destacando el impacto de usar representaciones contextuales adaptadas al sub-dominio específico de la tarea. Observamos que los mejores resultados del reconocimiento de entidades nombradas se obtienen con modelos basados en Transformers, sin embargo las representaciones generadas a partir de BiLSTM parecen capturar información semántica más rica, como evidencian los estudios de ablación y el análisis cualitativo.
The growing digitalization of medical processes has generated a large volume of tex- tual data, such as clinical study reports, which allow for process improvements through the automation of information extraction. However, this task presents significant challenges, especially in Spanish, due to the scarcity of resources in this language and the use of spe- cialized vocabulary. In addition, some of these texts often contain abbreviations, spelling errors, and typos, adding an extra layer of complexity. This work aims to contribute to the field of Biomedical Natural Language Processing (BioNLP) by developing better text representations to enhance information extraction from clinical reports written in Spanish. This thesis presents a study on the use of word embeddings and language models for ul- trasound reports written in Spanish. Different embedding models are proposed and evalua- ted, including static techniques such as FastText and models based on contextual architec- tures like Transformers and BiLSTM. The embeddings were trained using an anonymized corpus of more than 80,000 ultrasound reports. Extrinsic and intric evaluation methods were carried out. For the extrinsic evaluation, the chosen task was named entity recogni- tion, using the dataset from the SpRadIE competition. Additionally, an ablation study was conducted to better understand the relationship between the use of these representations and the performance of the models. For the intrinsic evaluation, a framework based on qualitative analysis is presented to assess the quality of the embeddings in domains where standardized benchmarks are not available. The results show improvements over the state of the art for the named entity re- cognition task in SpRadIE, highlighting the impact of using contextual representations tailored to the specific subdomain. We observe that the best results are obtained with Transformer-based models; however, the representations generated by BiLSTM appear to capture richer semantic information, as evidenced by the ablation studies and qualitative analysis.
Fil: Costa, Manuel J. J.. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description La creciente digitalización de los procesos médicos ha generado una gran cantidad de datos textuales, como informes de estudios clínicos, que permiten mejorar procesos a través de la automatización de la extracción de información de los mismos. Sin embargo, esta última presenta desafíos significativos, especialmente en español, debido a la escasez de recursos en este idioma y al uso de vocabulario especializado. También algunos de estos textos suelen tener abreviaturas, errores ortográficos y de tipeo, lo que agrega una complejidad adicional. Este trabajo busca contribuir al campo del Procesamiento del Lenguaje Natural Biomédico (BioNLP, por sus siglas en inglés) mediante el desarrollo de mejores representaciones de textos que optimicen la extracción de información para informes clínicos escritos en español. En esta tesis se desarrolla un estudio sobre el uso de word embeddings y modelos de lenguaje para informes de ecografía escritos en español. Se proponen y evalúan diferentes modelos de embeddings, incluyendo técnicas estáticas como FastText y modelos basados en arquitecturas contextuales como Transformers y BiLSTM. Los embeddings se entrenaron utilizando un corpus anonimizado de más de 80 mil informes de ecografías. Se realizaron dos tipos de evaluaciones sobre los embeddings: una extrínseca y una intrínseca. Para la evaluación extrínseca se utilizó la tarea de reconocimiento de entidades nombradas con el conjunto de datos de la competencia SpRadIE. Además, se realiza un estudio de ablación para intentar establecer un vínculo más directo entre el uso de las representaciones y el rendimiento obtenido por los modelos. Para la evaluación intrínseca, se presenta un marco basado en análisis cualitativo, para medir la calidad de los embeddings en dominios donde no existen benchmarks estandarizados. Los resultados obtenidos muestran mejoras sobre el estado del arte para la tarea de reconocimiento de entidades nombradas de SpRadIE, destacando el impacto de usar representaciones contextuales adaptadas al sub-dominio específico de la tarea. Observamos que los mejores resultados del reconocimiento de entidades nombradas se obtienen con modelos basados en Transformers, sin embargo las representaciones generadas a partir de BiLSTM parecen capturar información semántica más rica, como evidencian los estudios de ablación y el análisis cualitativo.
publishDate 2025
dc.date.none.fl_str_mv 2025-05-26
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000840_Costa
url https://hdl.handle.net/20.500.12110/seminario_nCOM000840_Costa
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1853758086240534528
score 13.113929