Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica

Autores
Petri, Javier
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Cotik, Viviana
Barcena Barbeira, Pilar
Descripción
Las historias clínicas son una herramienta fundamental para la atención médica. La creciente adopción de las historias clínicas electrónicas facilita la extracción automática de datos para realizar análisis que permitan detectar brotes de enfermedades de forma temprana y tomar decisiones basadas en datos, contribuyendo así a la vigilancia basada en eventos. Esta tesis aborda dos tareas principales: la detección automática de síntomas asociados a cinco síndromes de interés —síndrome febril agudo inespecífico, COVID-19, diarrea, neumonía y enfermedad tipo influenza— y la clasificación de historias clínicas en cuanto a la presencia, sospecha o ausencia de COVID-19. Para lograr estos objetivos, se utilizarán corpus de historias clínicas electrónicas escritas en español provenientes del sistema de salud argentino, previamente anotadas por expertos, así como métodos avanzados del procesamiento del lenguaje natural. El trabajo con historias clínicas electrónicas de Argentina es una fortaleza de este trabajo. Para la primer tarea utilizamos 6.228 historias clínicas etiquetados y aproximadamente 1 millón de historias clínicas no etiquetadas. Nuestro enfoque consistió en ajustar (i.e. realizar el fine-tuning) modelos de reconocimiento de entidades nombradas del estado del arte, incluyendo BiLSTM-CRF y modelos basados en transformers de la familia de BERT y RoBERTa. Nos enfocamos en modelos orientados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que losúltimos fueron pre-entrenados adicionalmente en nuestras historias clínicas no etiquetadas. A pesar de las limitaciones computacionales con las que contamos para entrenar nuestros modelos, estos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un transformer preentrenado en nuestro corpus no etiquetado, alcanzó el mejor rendimiento con un micro recall de 79.30 y un micro F1-score de 70.83, resultados comparables a los reportados en estudios similares. Para la tarea de clasificación, se utilizaron 4.996 historias clínicas etiquetadas y se implementaron modelos basados en transformers de la familia BERT y RoBERTa, adaptados al español y al dominio clínico. Los resultados de estos modelos se compararon con los obtenidos previamente por un proyecto anterior que incluyó la implementación de algoritmos clásicos de aprendizaje automático como la regresión logística. Los modelos basados en transformers, al igual que en la tarea de detección de síntomas, fueron preentrenados en grandes corpus de texto biomédico y luego ajustados con nuestro conjunto de datos sin etiquetar. Uno de esos modelos, BETO Clínico, una variante de BERT para el español, ajustado posteriormente con nuestros datos, alcanzó un micro F1 del 88.1 %, superando por un margen pequeño pero significativo el 85.1 % obtenido por regresión logística, siendo este el mejor de los modelos más sencillos.
Medical records are a fundamental tool for healthcare. The growing adoption of electronic medical records facilitates the automatic extraction of data to perform analyses that enable early detection of disease outbreaks and data-driven decision-making, thus contributing to event-based surveillance. This thesis addresses two main tasks: the automatic detection of symptoms associated with five syndromes of interest —acute nonspecific febrile syndrome, COVID-19, diarrhea, pneumonia, and influenza-like illness— and the classification of electronic health records regarding the presence, suspicion, or absence of COVID-19. To achieve these objectives, we use corpus of electronic health records written in Spanish from the Argentine health system, previously annotated by experts, as well as advanced methods in natural language processing. Working with electronic health records from Argentina is a strength of this study. For the first task, we used 6,228 annotated medical records and approximately 1 million unannotated records. Our approach consisted of fine-tuning state-of-the-art named entity recognition models, including BiLSTM-CRF and transformer-based models from the BERT and RoBERTa families. We focused on domain- and task-oriented models to improve performance: the former were pre-trained on biomedical corpora, while the latter were additionally pre-trained on our unannotated medical records. Despite computational limitations for training our models, they showed promising results. Specifically, RoBERTa-Clinico, a transformer pre-trained on our unannotated corpus, achieved the best performance with a micro recall of 79.30 and a micro F1-score of 70.83, results comparable to those reported in similar studies. For the classification task, 4,996 annotated medical records were used, and models based on transformers from the BERT and RoBERTa families, adapted to Spanish and the clinical domain, were implemented. The results of these models were compared to those previously obtained by a prior project that included the implementation of classical machine learning algorithms, such as logistic regression. The transformer-based models, as in the symptom detection task, were pre-trained on large biomedical text corpora and then fine-tuned with our unannotated dataset. One of these models, BETO Clínico, a variant of BERT for Spanish, further fine-tuned with our data, achieved a micro F1 of 88.1 %, slightly but significantly surpassing the 85.1 % obtained by logistic regression, which was the best among the simpler models.
Fil: Petri, Javier. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
NER
BioNLP EN ESPAÑOL
HISTORIAS CLINICAS ELECTRONICAS
TRANSFORMERS
VIGILANCIA BASADA EN EVENTOS
INTELIGENCIA EPIDEMIOLOGICA
COVID-19
NER
BioNLP IN SPANISH
ELECTRONIC HEALTH RECORDS
TRANSFORMERS
EVENT-BASED SURVEILLANCE
EPIDEMIOLOGICAL INTELLIGENCE
COVID-19
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000838_Petri

id BDUBAFCEN_f3eb361483c189830ed691be22f3566a
oai_identifier_str seminario:seminario_nCOM000838_Petri
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémicaPetri, JavierNERBioNLP EN ESPAÑOLHISTORIAS CLINICAS ELECTRONICASTRANSFORMERSVIGILANCIA BASADA EN EVENTOSINTELIGENCIA EPIDEMIOLOGICACOVID-19NERBioNLP IN SPANISHELECTRONIC HEALTH RECORDSTRANSFORMERSEVENT-BASED SURVEILLANCEEPIDEMIOLOGICAL INTELLIGENCECOVID-19Las historias clínicas son una herramienta fundamental para la atención médica. La creciente adopción de las historias clínicas electrónicas facilita la extracción automática de datos para realizar análisis que permitan detectar brotes de enfermedades de forma temprana y tomar decisiones basadas en datos, contribuyendo así a la vigilancia basada en eventos. Esta tesis aborda dos tareas principales: la detección automática de síntomas asociados a cinco síndromes de interés —síndrome febril agudo inespecífico, COVID-19, diarrea, neumonía y enfermedad tipo influenza— y la clasificación de historias clínicas en cuanto a la presencia, sospecha o ausencia de COVID-19. Para lograr estos objetivos, se utilizarán corpus de historias clínicas electrónicas escritas en español provenientes del sistema de salud argentino, previamente anotadas por expertos, así como métodos avanzados del procesamiento del lenguaje natural. El trabajo con historias clínicas electrónicas de Argentina es una fortaleza de este trabajo. Para la primer tarea utilizamos 6.228 historias clínicas etiquetados y aproximadamente 1 millón de historias clínicas no etiquetadas. Nuestro enfoque consistió en ajustar (i.e. realizar el fine-tuning) modelos de reconocimiento de entidades nombradas del estado del arte, incluyendo BiLSTM-CRF y modelos basados en transformers de la familia de BERT y RoBERTa. Nos enfocamos en modelos orientados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que losúltimos fueron pre-entrenados adicionalmente en nuestras historias clínicas no etiquetadas. A pesar de las limitaciones computacionales con las que contamos para entrenar nuestros modelos, estos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un transformer preentrenado en nuestro corpus no etiquetado, alcanzó el mejor rendimiento con un micro recall de 79.30 y un micro F1-score de 70.83, resultados comparables a los reportados en estudios similares. Para la tarea de clasificación, se utilizaron 4.996 historias clínicas etiquetadas y se implementaron modelos basados en transformers de la familia BERT y RoBERTa, adaptados al español y al dominio clínico. Los resultados de estos modelos se compararon con los obtenidos previamente por un proyecto anterior que incluyó la implementación de algoritmos clásicos de aprendizaje automático como la regresión logística. Los modelos basados en transformers, al igual que en la tarea de detección de síntomas, fueron preentrenados en grandes corpus de texto biomédico y luego ajustados con nuestro conjunto de datos sin etiquetar. Uno de esos modelos, BETO Clínico, una variante de BERT para el español, ajustado posteriormente con nuestros datos, alcanzó un micro F1 del 88.1 %, superando por un margen pequeño pero significativo el 85.1 % obtenido por regresión logística, siendo este el mejor de los modelos más sencillos.Medical records are a fundamental tool for healthcare. The growing adoption of electronic medical records facilitates the automatic extraction of data to perform analyses that enable early detection of disease outbreaks and data-driven decision-making, thus contributing to event-based surveillance. This thesis addresses two main tasks: the automatic detection of symptoms associated with five syndromes of interest —acute nonspecific febrile syndrome, COVID-19, diarrhea, pneumonia, and influenza-like illness— and the classification of electronic health records regarding the presence, suspicion, or absence of COVID-19. To achieve these objectives, we use corpus of electronic health records written in Spanish from the Argentine health system, previously annotated by experts, as well as advanced methods in natural language processing. Working with electronic health records from Argentina is a strength of this study. For the first task, we used 6,228 annotated medical records and approximately 1 million unannotated records. Our approach consisted of fine-tuning state-of-the-art named entity recognition models, including BiLSTM-CRF and transformer-based models from the BERT and RoBERTa families. We focused on domain- and task-oriented models to improve performance: the former were pre-trained on biomedical corpora, while the latter were additionally pre-trained on our unannotated medical records. Despite computational limitations for training our models, they showed promising results. Specifically, RoBERTa-Clinico, a transformer pre-trained on our unannotated corpus, achieved the best performance with a micro recall of 79.30 and a micro F1-score of 70.83, results comparable to those reported in similar studies. For the classification task, 4,996 annotated medical records were used, and models based on transformers from the BERT and RoBERTa families, adapted to Spanish and the clinical domain, were implemented. The results of these models were compared to those previously obtained by a prior project that included the implementation of classical machine learning algorithms, such as logistic regression. The transformer-based models, as in the symptom detection task, were pre-trained on large biomedical text corpora and then fine-tuned with our unannotated dataset. One of these models, BETO Clínico, a variant of BERT for Spanish, further fine-tuned with our data, achieved a micro F1 of 88.1 %, slightly but significantly surpassing the 85.1 % obtained by logistic regression, which was the best among the simpler models.Fil: Petri, Javier. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesCotik, VivianaBarcena Barbeira, Pilar2025-04-11info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000838_Petrispainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-01-08T10:37:26Zseminario:seminario_nCOM000838_PetriInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-01-08 10:37:27.447Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica
title Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica
spellingShingle Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica
Petri, Javier
NER
BioNLP EN ESPAÑOL
HISTORIAS CLINICAS ELECTRONICAS
TRANSFORMERS
VIGILANCIA BASADA EN EVENTOS
INTELIGENCIA EPIDEMIOLOGICA
COVID-19
NER
BioNLP IN SPANISH
ELECTRONIC HEALTH RECORDS
TRANSFORMERS
EVENT-BASED SURVEILLANCE
EPIDEMIOLOGICAL INTELLIGENCE
COVID-19
title_short Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica
title_full Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica
title_fullStr Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica
title_full_unstemmed Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica
title_sort Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica
dc.creator.none.fl_str_mv Petri, Javier
author Petri, Javier
author_facet Petri, Javier
author_role author
dc.contributor.none.fl_str_mv Cotik, Viviana
Barcena Barbeira, Pilar
dc.subject.none.fl_str_mv NER
BioNLP EN ESPAÑOL
HISTORIAS CLINICAS ELECTRONICAS
TRANSFORMERS
VIGILANCIA BASADA EN EVENTOS
INTELIGENCIA EPIDEMIOLOGICA
COVID-19
NER
BioNLP IN SPANISH
ELECTRONIC HEALTH RECORDS
TRANSFORMERS
EVENT-BASED SURVEILLANCE
EPIDEMIOLOGICAL INTELLIGENCE
COVID-19
topic NER
BioNLP EN ESPAÑOL
HISTORIAS CLINICAS ELECTRONICAS
TRANSFORMERS
VIGILANCIA BASADA EN EVENTOS
INTELIGENCIA EPIDEMIOLOGICA
COVID-19
NER
BioNLP IN SPANISH
ELECTRONIC HEALTH RECORDS
TRANSFORMERS
EVENT-BASED SURVEILLANCE
EPIDEMIOLOGICAL INTELLIGENCE
COVID-19
dc.description.none.fl_txt_mv Las historias clínicas son una herramienta fundamental para la atención médica. La creciente adopción de las historias clínicas electrónicas facilita la extracción automática de datos para realizar análisis que permitan detectar brotes de enfermedades de forma temprana y tomar decisiones basadas en datos, contribuyendo así a la vigilancia basada en eventos. Esta tesis aborda dos tareas principales: la detección automática de síntomas asociados a cinco síndromes de interés —síndrome febril agudo inespecífico, COVID-19, diarrea, neumonía y enfermedad tipo influenza— y la clasificación de historias clínicas en cuanto a la presencia, sospecha o ausencia de COVID-19. Para lograr estos objetivos, se utilizarán corpus de historias clínicas electrónicas escritas en español provenientes del sistema de salud argentino, previamente anotadas por expertos, así como métodos avanzados del procesamiento del lenguaje natural. El trabajo con historias clínicas electrónicas de Argentina es una fortaleza de este trabajo. Para la primer tarea utilizamos 6.228 historias clínicas etiquetados y aproximadamente 1 millón de historias clínicas no etiquetadas. Nuestro enfoque consistió en ajustar (i.e. realizar el fine-tuning) modelos de reconocimiento de entidades nombradas del estado del arte, incluyendo BiLSTM-CRF y modelos basados en transformers de la familia de BERT y RoBERTa. Nos enfocamos en modelos orientados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que losúltimos fueron pre-entrenados adicionalmente en nuestras historias clínicas no etiquetadas. A pesar de las limitaciones computacionales con las que contamos para entrenar nuestros modelos, estos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un transformer preentrenado en nuestro corpus no etiquetado, alcanzó el mejor rendimiento con un micro recall de 79.30 y un micro F1-score de 70.83, resultados comparables a los reportados en estudios similares. Para la tarea de clasificación, se utilizaron 4.996 historias clínicas etiquetadas y se implementaron modelos basados en transformers de la familia BERT y RoBERTa, adaptados al español y al dominio clínico. Los resultados de estos modelos se compararon con los obtenidos previamente por un proyecto anterior que incluyó la implementación de algoritmos clásicos de aprendizaje automático como la regresión logística. Los modelos basados en transformers, al igual que en la tarea de detección de síntomas, fueron preentrenados en grandes corpus de texto biomédico y luego ajustados con nuestro conjunto de datos sin etiquetar. Uno de esos modelos, BETO Clínico, una variante de BERT para el español, ajustado posteriormente con nuestros datos, alcanzó un micro F1 del 88.1 %, superando por un margen pequeño pero significativo el 85.1 % obtenido por regresión logística, siendo este el mejor de los modelos más sencillos.
Medical records are a fundamental tool for healthcare. The growing adoption of electronic medical records facilitates the automatic extraction of data to perform analyses that enable early detection of disease outbreaks and data-driven decision-making, thus contributing to event-based surveillance. This thesis addresses two main tasks: the automatic detection of symptoms associated with five syndromes of interest —acute nonspecific febrile syndrome, COVID-19, diarrhea, pneumonia, and influenza-like illness— and the classification of electronic health records regarding the presence, suspicion, or absence of COVID-19. To achieve these objectives, we use corpus of electronic health records written in Spanish from the Argentine health system, previously annotated by experts, as well as advanced methods in natural language processing. Working with electronic health records from Argentina is a strength of this study. For the first task, we used 6,228 annotated medical records and approximately 1 million unannotated records. Our approach consisted of fine-tuning state-of-the-art named entity recognition models, including BiLSTM-CRF and transformer-based models from the BERT and RoBERTa families. We focused on domain- and task-oriented models to improve performance: the former were pre-trained on biomedical corpora, while the latter were additionally pre-trained on our unannotated medical records. Despite computational limitations for training our models, they showed promising results. Specifically, RoBERTa-Clinico, a transformer pre-trained on our unannotated corpus, achieved the best performance with a micro recall of 79.30 and a micro F1-score of 70.83, results comparable to those reported in similar studies. For the classification task, 4,996 annotated medical records were used, and models based on transformers from the BERT and RoBERTa families, adapted to Spanish and the clinical domain, were implemented. The results of these models were compared to those previously obtained by a prior project that included the implementation of classical machine learning algorithms, such as logistic regression. The transformer-based models, as in the symptom detection task, were pre-trained on large biomedical text corpora and then fine-tuned with our unannotated dataset. One of these models, BETO Clínico, a variant of BERT for Spanish, further fine-tuned with our data, achieved a micro F1 of 88.1 %, slightly but significantly surpassing the 85.1 % obtained by logistic regression, which was the best among the simpler models.
Fil: Petri, Javier. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Las historias clínicas son una herramienta fundamental para la atención médica. La creciente adopción de las historias clínicas electrónicas facilita la extracción automática de datos para realizar análisis que permitan detectar brotes de enfermedades de forma temprana y tomar decisiones basadas en datos, contribuyendo así a la vigilancia basada en eventos. Esta tesis aborda dos tareas principales: la detección automática de síntomas asociados a cinco síndromes de interés —síndrome febril agudo inespecífico, COVID-19, diarrea, neumonía y enfermedad tipo influenza— y la clasificación de historias clínicas en cuanto a la presencia, sospecha o ausencia de COVID-19. Para lograr estos objetivos, se utilizarán corpus de historias clínicas electrónicas escritas en español provenientes del sistema de salud argentino, previamente anotadas por expertos, así como métodos avanzados del procesamiento del lenguaje natural. El trabajo con historias clínicas electrónicas de Argentina es una fortaleza de este trabajo. Para la primer tarea utilizamos 6.228 historias clínicas etiquetados y aproximadamente 1 millón de historias clínicas no etiquetadas. Nuestro enfoque consistió en ajustar (i.e. realizar el fine-tuning) modelos de reconocimiento de entidades nombradas del estado del arte, incluyendo BiLSTM-CRF y modelos basados en transformers de la familia de BERT y RoBERTa. Nos enfocamos en modelos orientados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que losúltimos fueron pre-entrenados adicionalmente en nuestras historias clínicas no etiquetadas. A pesar de las limitaciones computacionales con las que contamos para entrenar nuestros modelos, estos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un transformer preentrenado en nuestro corpus no etiquetado, alcanzó el mejor rendimiento con un micro recall de 79.30 y un micro F1-score de 70.83, resultados comparables a los reportados en estudios similares. Para la tarea de clasificación, se utilizaron 4.996 historias clínicas etiquetadas y se implementaron modelos basados en transformers de la familia BERT y RoBERTa, adaptados al español y al dominio clínico. Los resultados de estos modelos se compararon con los obtenidos previamente por un proyecto anterior que incluyó la implementación de algoritmos clásicos de aprendizaje automático como la regresión logística. Los modelos basados en transformers, al igual que en la tarea de detección de síntomas, fueron preentrenados en grandes corpus de texto biomédico y luego ajustados con nuestro conjunto de datos sin etiquetar. Uno de esos modelos, BETO Clínico, una variante de BERT para el español, ajustado posteriormente con nuestros datos, alcanzó un micro F1 del 88.1 %, superando por un margen pequeño pero significativo el 85.1 % obtenido por regresión logística, siendo este el mejor de los modelos más sencillos.
publishDate 2025
dc.date.none.fl_str_mv 2025-04-11
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000838_Petri
url https://hdl.handle.net/20.500.12110/seminario_nCOM000838_Petri
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1853758086800474112
score 13.113929