Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
- Autores
- Brunello, Florencia Luciana
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Alonso i Alemany, Laura
- Descripción
- Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.
Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.
En este trabajo comparamos tres aproximaciones a la anonimización de texto libre en registros clínicos: una basada en expresiones regulares, otra en redes neuronales recurrentes y una tercera en un modelo de lenguaje pre entrenado. Para garantizar una evaluación justa, ante la posibilidad de que el modelo de lenguaje haya incorporado información de los conjuntos públicos de evaluación para esta tarea, desarrollamos un conjunto de datos sintético comparable a dichos conjuntos, disponibles públicamente para la comunidad científica. Después de una evaluación pormenorizada, observamos que las redes neuronales recurrentes ofrecen un desempeño claramente superior a las otras dos aproximaciones, con un costo computacional notablemente inferior al de los modelos de lenguaje. Este trabajo se enmarca en el proyecto ARPHAI.
In this study, we compare three approaches to free-text anonymization in clinical records: one based on regular expressions, another using recurrent neural networks, and a third based on a pretrained language model. To ensure a fair evaluation, particularly given the possibility that the language model may have been exposed to publicly available benchmark datasets, we developed a synthetic dataset that closely resembles these public resources and made it available to the scientific community. Following a thorough evaluation, we found that recurrent neural networks achieve clearly superior performance compared to the other two approaches, while incurring significantly lower computational costs than language models. This work is part of the ARPHAI project
Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina. - Materia
-
Inteligencia artificial
Procesamiento del lenguaje natural
Reconocimiento de entidades nombradas
Anonimización de textos clínicos
Historia clínica electrónica
Información personal protegida - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- Repositorio
.jpg)
- Institución
- Universidad Nacional de Córdoba
- OAI Identificador
- oai:rdu.unc.edu.ar:11086/560261
Ver los metadatos del registro completo
| id |
RDUUNC_0ee283ded93e8d839b3b530cf80be998 |
|---|---|
| oai_identifier_str |
oai:rdu.unc.edu.ar:11086/560261 |
| network_acronym_str |
RDUUNC |
| repository_id_str |
2572 |
| network_name_str |
Repositorio Digital Universitario (UNC) |
| spelling |
Evaluación de diferentes aproximaciones a la anonimización de textos médicos en españolBrunello, Florencia LucianaInteligencia artificialProcesamiento del lenguaje naturalReconocimiento de entidades nombradasAnonimización de textos clínicosHistoria clínica electrónicaInformación personal protegidaTesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.En este trabajo comparamos tres aproximaciones a la anonimización de texto libre en registros clínicos: una basada en expresiones regulares, otra en redes neuronales recurrentes y una tercera en un modelo de lenguaje pre entrenado. Para garantizar una evaluación justa, ante la posibilidad de que el modelo de lenguaje haya incorporado información de los conjuntos públicos de evaluación para esta tarea, desarrollamos un conjunto de datos sintético comparable a dichos conjuntos, disponibles públicamente para la comunidad científica. Después de una evaluación pormenorizada, observamos que las redes neuronales recurrentes ofrecen un desempeño claramente superior a las otras dos aproximaciones, con un costo computacional notablemente inferior al de los modelos de lenguaje. Este trabajo se enmarca en el proyecto ARPHAI.In this study, we compare three approaches to free-text anonymization in clinical records: one based on regular expressions, another using recurrent neural networks, and a third based on a pretrained language model. To ensure a fair evaluation, particularly given the possibility that the language model may have been exposed to publicly available benchmark datasets, we developed a synthetic dataset that closely resembles these public resources and made it available to the scientific community. Following a thorough evaluation, we found that recurrent neural networks achieve clearly superior performance compared to the other two approaches, while incurring significantly lower computational costs than language models. This work is part of the ARPHAI projectFil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.Alonso i Alemany, Laura2025-12info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://hdl.handle.net/11086/560261spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2026-05-07T11:44:29Zoai:rdu.unc.edu.ar:11086/560261Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722026-05-07 11:44:30.779Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse |
| dc.title.none.fl_str_mv |
Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español |
| title |
Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español |
| spellingShingle |
Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español Brunello, Florencia Luciana Inteligencia artificial Procesamiento del lenguaje natural Reconocimiento de entidades nombradas Anonimización de textos clínicos Historia clínica electrónica Información personal protegida |
| title_short |
Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español |
| title_full |
Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español |
| title_fullStr |
Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español |
| title_full_unstemmed |
Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español |
| title_sort |
Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español |
| dc.creator.none.fl_str_mv |
Brunello, Florencia Luciana |
| author |
Brunello, Florencia Luciana |
| author_facet |
Brunello, Florencia Luciana |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Alonso i Alemany, Laura |
| dc.subject.none.fl_str_mv |
Inteligencia artificial Procesamiento del lenguaje natural Reconocimiento de entidades nombradas Anonimización de textos clínicos Historia clínica electrónica Información personal protegida |
| topic |
Inteligencia artificial Procesamiento del lenguaje natural Reconocimiento de entidades nombradas Anonimización de textos clínicos Historia clínica electrónica Información personal protegida |
| dc.description.none.fl_txt_mv |
Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025. Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina. En este trabajo comparamos tres aproximaciones a la anonimización de texto libre en registros clínicos: una basada en expresiones regulares, otra en redes neuronales recurrentes y una tercera en un modelo de lenguaje pre entrenado. Para garantizar una evaluación justa, ante la posibilidad de que el modelo de lenguaje haya incorporado información de los conjuntos públicos de evaluación para esta tarea, desarrollamos un conjunto de datos sintético comparable a dichos conjuntos, disponibles públicamente para la comunidad científica. Después de una evaluación pormenorizada, observamos que las redes neuronales recurrentes ofrecen un desempeño claramente superior a las otras dos aproximaciones, con un costo computacional notablemente inferior al de los modelos de lenguaje. Este trabajo se enmarca en el proyecto ARPHAI. In this study, we compare three approaches to free-text anonymization in clinical records: one based on regular expressions, another using recurrent neural networks, and a third based on a pretrained language model. To ensure a fair evaluation, particularly given the possibility that the language model may have been exposed to publicly available benchmark datasets, we developed a synthetic dataset that closely resembles these public resources and made it available to the scientific community. Following a thorough evaluation, we found that recurrent neural networks achieve clearly superior performance compared to the other two approaches, while incurring significantly lower computational costs than language models. This work is part of the ARPHAI project Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina. |
| description |
Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-12 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
| format |
bachelorThesis |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://hdl.handle.net/11086/560261 |
| url |
http://hdl.handle.net/11086/560261 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositorio Digital Universitario (UNC) instname:Universidad Nacional de Córdoba instacron:UNC |
| reponame_str |
Repositorio Digital Universitario (UNC) |
| collection |
Repositorio Digital Universitario (UNC) |
| instname_str |
Universidad Nacional de Córdoba |
| instacron_str |
UNC |
| institution |
UNC |
| repository.name.fl_str_mv |
Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba |
| repository.mail.fl_str_mv |
oca.unc@gmail.com |
| _version_ |
1864546148412293120 |
| score |
12.637756 |