Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español

Autores: Brunello, Florencia Luciana
Año de publicación: 2025
Idioma: español castellano
Tipo de recurso: tesis de grado
Estado: versión publicada
Colaborador/a o director/a de tesis: Alonso i Alemany, Laura
Descripción: Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.
Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.
En este trabajo comparamos tres aproximaciones a la anonimización de texto libre en registros clínicos: una basada en expresiones regulares, otra en redes neuronales recurrentes y una tercera en un modelo de lenguaje pre entrenado. Para garantizar una evaluación justa, ante la posibilidad de que el modelo de lenguaje haya incorporado información de los conjuntos públicos de evaluación para esta tarea, desarrollamos un conjunto de datos sintético comparable a dichos conjuntos, disponibles públicamente para la comunidad científica. Después de una evaluación pormenorizada, observamos que las redes neuronales recurrentes ofrecen un desempeño claramente superior a las otras dos aproximaciones, con un costo computacional notablemente inferior al de los modelos de lenguaje. Este trabajo se enmarca en el proyecto ARPHAI.
In this study, we compare three approaches to free-text anonymization in clinical records: one based on regular expressions, another using recurrent neural networks, and a third based on a pretrained language model. To ensure a fair evaluation, particularly given the possibility that the language model may have been exposed to publicly available benchmark datasets, we developed a synthetic dataset that closely resembles these public resources and made it available to the scientific community. Following a thorough evaluation, we found that recurrent neural networks achieve clearly superior performance compared to the other two approaches, while incurring significantly lower computational costs than language models. This work is part of the ARPHAI project
Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.
Materia: Inteligencia artificial
Procesamiento del lenguaje natural
Reconocimiento de entidades nombradas
Anonimización de textos clínicos
Historia clínica electrónica
Información personal protegida
Nivel de accesibilidad: acceso abierto
Condiciones de uso
Repositorio
Institución: Universidad Nacional de Córdoba
OAI Identificador: oai:rdu.unc.edu.ar:11086/560261

Acceder

id	RDUUNC_0ee283ded93e8d839b3b530cf80be998
oai_identifier_str	oai:rdu.unc.edu.ar:11086/560261
network_acronym_str	RDUUNC
repository_id_str	2572
network_name_str	Repositorio Digital Universitario (UNC)
spelling	Evaluación de diferentes aproximaciones a la anonimización de textos médicos en españolBrunello, Florencia LucianaInteligencia artificialProcesamiento del lenguaje naturalReconocimiento de entidades nombradasAnonimización de textos clínicosHistoria clínica electrónicaInformación personal protegidaTesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.En este trabajo comparamos tres aproximaciones a la anonimización de texto libre en registros clínicos: una basada en expresiones regulares, otra en redes neuronales recurrentes y una tercera en un modelo de lenguaje pre entrenado. Para garantizar una evaluación justa, ante la posibilidad de que el modelo de lenguaje haya incorporado información de los conjuntos públicos de evaluación para esta tarea, desarrollamos un conjunto de datos sintético comparable a dichos conjuntos, disponibles públicamente para la comunidad científica. Después de una evaluación pormenorizada, observamos que las redes neuronales recurrentes ofrecen un desempeño claramente superior a las otras dos aproximaciones, con un costo computacional notablemente inferior al de los modelos de lenguaje. Este trabajo se enmarca en el proyecto ARPHAI.In this study, we compare three approaches to free-text anonymization in clinical records: one based on regular expressions, another using recurrent neural networks, and a third based on a pretrained language model. To ensure a fair evaluation, particularly given the possibility that the language model may have been exposed to publicly available benchmark datasets, we developed a synthetic dataset that closely resembles these public resources and made it available to the scientific community. Following a thorough evaluation, we found that recurrent neural networks achieve clearly superior performance compared to the other two approaches, while incurring significantly lower computational costs than language models. This work is part of the ARPHAI projectFil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.Alonso i Alemany, Laura2025-12info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://hdl.handle.net/11086/560261spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2026-06-04T09:40:08Zoai:rdu.unc.edu.ar:11086/560261Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722026-06-04 09:40:09.055Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv	Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
title	Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
spellingShingle	Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español Brunello, Florencia Luciana Inteligencia artificial Procesamiento del lenguaje natural Reconocimiento de entidades nombradas Anonimización de textos clínicos Historia clínica electrónica Información personal protegida
title_short	Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
title_full	Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
title_fullStr	Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
title_full_unstemmed	Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
title_sort	Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español
dc.creator.none.fl_str_mv	Brunello, Florencia Luciana
author	Brunello, Florencia Luciana
author_facet	Brunello, Florencia Luciana
author_role	author
dc.contributor.none.fl_str_mv	Alonso i Alemany, Laura
dc.subject.none.fl_str_mv	Inteligencia artificial Procesamiento del lenguaje natural Reconocimiento de entidades nombradas Anonimización de textos clínicos Historia clínica electrónica Información personal protegida
topic	Inteligencia artificial Procesamiento del lenguaje natural Reconocimiento de entidades nombradas Anonimización de textos clínicos Historia clínica electrónica Información personal protegida
dc.description.none.fl_txt_mv	Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025. Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina. En este trabajo comparamos tres aproximaciones a la anonimización de texto libre en registros clínicos: una basada en expresiones regulares, otra en redes neuronales recurrentes y una tercera en un modelo de lenguaje pre entrenado. Para garantizar una evaluación justa, ante la posibilidad de que el modelo de lenguaje haya incorporado información de los conjuntos públicos de evaluación para esta tarea, desarrollamos un conjunto de datos sintético comparable a dichos conjuntos, disponibles públicamente para la comunidad científica. Después de una evaluación pormenorizada, observamos que las redes neuronales recurrentes ofrecen un desempeño claramente superior a las otras dos aproximaciones, con un costo computacional notablemente inferior al de los modelos de lenguaje. Este trabajo se enmarca en el proyecto ARPHAI. In this study, we compare three approaches to free-text anonymization in clinical records: one based on regular expressions, another using recurrent neural networks, and a third based on a pretrained language model. To ensure a fair evaluation, particularly given the possibility that the language model may have been exposed to publicly available benchmark datasets, we developed a synthetic dataset that closely resembles these public resources and made it available to the scientific community. Following a thorough evaluation, we found that recurrent neural networks achieve clearly superior performance compared to the other two approaches, while incurring significantly lower computational costs than language models. This work is part of the ARPHAI project Fil: Brunello, Florencia Luciana. Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación; Argentina.
description	Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.
publishDate	2025
dc.date.none.fl_str_mv	2025-12
dc.type.none.fl_str_mv	info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado
format	bachelorThesis
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://hdl.handle.net/11086/560261
url	http://hdl.handle.net/11086/560261
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositorio Digital Universitario (UNC) instname:Universidad Nacional de Córdoba instacron:UNC
reponame_str	Repositorio Digital Universitario (UNC)
collection	Repositorio Digital Universitario (UNC)
instname_str	Universidad Nacional de Córdoba
instacron_str	UNC
institution	UNC
repository.name.fl_str_mv	Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv	oca.unc@gmail.com
_version_	1867091199067684864
score	12.83248

Evaluación de diferentes aproximaciones a la anonimización de textos médicos en español

Publicaciones similares