Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español

Autores
Brunello, Florencia Luciana
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Alonso i Alemany, Laura
Descripción
Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.
Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.
En este trabajo comparamos tres aproximaciones a la anonimización de texto libre en registros clínicos: una basada en expresiones regulares, otra en redes neuronales recurrentes y una tercera en un modelo de lenguaje pre entrenado. Para garantizar una evaluación justa, ante la posibilidad de que el modelo de lenguaje haya incorporado información de los conjuntos públicos de evaluación para esta tarea, desarrollamos un conjunto de datos sintético comparable a dichos conjuntos, disponibles públicamente para la comunidad científica. Después de una evaluación pormenorizada, observamos que las redes neuronales recurrentes ofrecen un desempeño claramente superior a las otras dos aproximaciones, con un costo computacional notablemente inferior al de los modelos de lenguaje. Este trabajo se enmarca en el proyecto ARPHAI.
In this study, we compare three approaches to free-text anonymization in clinical records: one based on regular expressions, another using recurrent neural networks, and a third based on a pretrained language model. To ensure a fair evaluation, particularly given the possibility that the language model may have been exposed to publicly available benchmark datasets, we developed a synthetic dataset that closely resembles these public resources and made it available to the scientific community. Following a thorough evaluation, we found that recurrent neural networks achieve clearly superior performance compared to the other two approaches, while incurring significantly lower computational costs than language models. This work is part of the ARPHAI project
Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.
Materia
Inteligencia artificial
Procesamiento del lenguaje natural
Reconocimiento de entidades nombradas
Anonimización de textos clínicos
Historia clínica electrónica
Información personal protegida
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Repositorio
Repositorio Digital Universitario (UNC)
Institución
Universidad Nacional de Córdoba
OAI Identificador
oai:rdu.unc.edu.ar:11086/560261

id RDUUNC_0ee283ded93e8d839b3b530cf80be998
oai_identifier_str oai:rdu.unc.edu.ar:11086/560261
network_acronym_str RDUUNC
repository_id_str 2572
network_name_str Repositorio Digital Universitario (UNC)
spelling Evaluación de diferentes aproximaciones a la anonimización de textos médicos en españolBrunello, Florencia LucianaInteligencia artificialProcesamiento del lenguaje naturalReconocimiento de entidades nombradasAnonimización de textos clínicosHistoria clínica electrónicaInformación personal protegidaTesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.En este trabajo comparamos tres aproximaciones a la anonimización de texto libre en registros clínicos: una basada en expresiones regulares, otra en redes neuronales recurrentes y una tercera en un modelo de lenguaje pre entrenado. Para garantizar una evaluación justa, ante la posibilidad de que el modelo de lenguaje haya incorporado información de los conjuntos públicos de evaluación para esta tarea, desarrollamos un conjunto de datos sintético comparable a dichos conjuntos, disponibles públicamente para la comunidad científica. Después de una evaluación pormenorizada, observamos que las redes neuronales recurrentes ofrecen un desempeño claramente superior a las otras dos aproximaciones, con un costo computacional notablemente inferior al de los modelos de lenguaje. Este trabajo se enmarca en el proyecto ARPHAI.In this study, we compare three approaches to free-text anonymization in clinical records: one based on regular expressions, another using recurrent neural networks, and a third based on a pretrained language model. To ensure a fair evaluation, particularly given the possibility that the language model may have been exposed to publicly available benchmark datasets, we developed a synthetic dataset that closely resembles these public resources and made it available to the scientific community. Following a thorough evaluation, we found that recurrent neural networks achieve clearly superior performance compared to the other two approaches, while incurring significantly lower computational costs than language models. This work is part of the ARPHAI projectFil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.Alonso i Alemany, Laura2025-12info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://hdl.handle.net/11086/560261spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2026-05-07T11:44:29Zoai:rdu.unc.edu.ar:11086/560261Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722026-05-07 11:44:30.779Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
title Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
spellingShingle Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
Brunello, Florencia Luciana
Inteligencia artificial
Procesamiento del lenguaje natural
Reconocimiento de entidades nombradas
Anonimización de textos clínicos
Historia clínica electrónica
Información personal protegida
title_short Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
title_full Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
title_fullStr Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
title_full_unstemmed Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
title_sort Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
dc.creator.none.fl_str_mv Brunello, Florencia Luciana
author Brunello, Florencia Luciana
author_facet Brunello, Florencia Luciana
author_role author
dc.contributor.none.fl_str_mv Alonso i Alemany, Laura
dc.subject.none.fl_str_mv Inteligencia artificial
Procesamiento del lenguaje natural
Reconocimiento de entidades nombradas
Anonimización de textos clínicos
Historia clínica electrónica
Información personal protegida
topic Inteligencia artificial
Procesamiento del lenguaje natural
Reconocimiento de entidades nombradas
Anonimización de textos clínicos
Historia clínica electrónica
Información personal protegida
dc.description.none.fl_txt_mv Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.
Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.
En este trabajo comparamos tres aproximaciones a la anonimización de texto libre en registros clínicos: una basada en expresiones regulares, otra en redes neuronales recurrentes y una tercera en un modelo de lenguaje pre entrenado. Para garantizar una evaluación justa, ante la posibilidad de que el modelo de lenguaje haya incorporado información de los conjuntos públicos de evaluación para esta tarea, desarrollamos un conjunto de datos sintético comparable a dichos conjuntos, disponibles públicamente para la comunidad científica. Después de una evaluación pormenorizada, observamos que las redes neuronales recurrentes ofrecen un desempeño claramente superior a las otras dos aproximaciones, con un costo computacional notablemente inferior al de los modelos de lenguaje. Este trabajo se enmarca en el proyecto ARPHAI.
In this study, we compare three approaches to free-text anonymization in clinical records: one based on regular expressions, another using recurrent neural networks, and a third based on a pretrained language model. To ensure a fair evaluation, particularly given the possibility that the language model may have been exposed to publicly available benchmark datasets, we developed a synthetic dataset that closely resembles these public resources and made it available to the scientific community. Following a thorough evaluation, we found that recurrent neural networks achieve clearly superior performance compared to the other two approaches, while incurring significantly lower computational costs than language models. This work is part of the ARPHAI project
Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.
description Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.
publishDate 2025
dc.date.none.fl_str_mv 2025-12
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11086/560261
url http://hdl.handle.net/11086/560261
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositorio Digital Universitario (UNC)
instname:Universidad Nacional de Córdoba
instacron:UNC
reponame_str Repositorio Digital Universitario (UNC)
collection Repositorio Digital Universitario (UNC)
instname_str Universidad Nacional de Córdoba
instacron_str UNC
institution UNC
repository.name.fl_str_mv Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv oca.unc@gmail.com
_version_ 1864546148412293120
score 12.637756