Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica

Autores: Petri, Javier; Barcena Barbeira, Pilar; Cotik, Viviana
Año de publicación: 2025
Idioma: español castellano
Tipo de recurso: documento de conferencia
Estado: versión publicada
Descripción: La detección automática de síntomas a partir de historias clínicas electrónicas es una fuente valiosa para los sistemas de vigilancia basados en eventos. En este estudio, desarrollamos herramientas para detectar automáticamente síntomas asociados a enfermedades febriles en historias clínicas electrónicas redactadas en español. Para ello, utilizamos un corpus personalizado que incluye 6.228 reportes de salud anotados por expertos y aproximadamente 1 millón de reportes no anotados. Nuestra estrategia consistió en ajustar modelos de reconocimiento de entidades nombradas de última generación, incluyendo modelos BiLSTMCRF y modelos basados en transformers como RoBERTa. Nos enfocamos en modelos adaptados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que los segundos fueron pre-entrenados adicionalmente en nuestros reportes de salud no anotados. A pesar de las limitaciones computacionales, nuestros modelos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un modelo basado en transformers adaptado a la tarea y pre-entrenado sobre nuestro corpus no anotado, obtuvo el mejor rendimiento para el micro recall (79,30) y un F1 micro de 70,83, cifras comparables a estudios similares. De este modo, contribuimos al limitado cuerpo de trabajos en BioNLP en español.
Sociedad Argentina de Informática e Investigación Operativa
Materia: Ciencias Informáticas
Reconocimiento de entidades nombradas
BioNLP
Historias clínicas electrónicas en español
Detección automática de síntomas
Vigilancia basada en eventos
Nivel de accesibilidad: acceso abierto
Condiciones de uso: http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
Institución: Universidad Nacional de La Plata
OAI Identificador: oai:sedici.unlp.edu.ar:10915/190547

Acceder

id	SEDICI_59d9facfe4ad405664e73f63c631ee9e
oai_identifier_str	oai:sedici.unlp.edu.ar:10915/190547
network_acronym_str	SEDICI
repository_id_str	1329
network_name_str	SEDICI (UNLP)
spelling	Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémicaExtraction of information from Electronic Medical Records written in Spanish to conduct epidemic intelligencePetri, JavierBarcena Barbeira, PilarCotik, VivianaCiencias InformáticasReconocimiento de entidades nombradasBioNLPHistorias clínicas electrónicas en españolDetección automática de síntomasVigilancia basada en eventosLa detección automática de síntomas a partir de historias clínicas electrónicas es una fuente valiosa para los sistemas de vigilancia basados en eventos. En este estudio, desarrollamos herramientas para detectar automáticamente síntomas asociados a enfermedades febriles en historias clínicas electrónicas redactadas en español. Para ello, utilizamos un corpus personalizado que incluye 6.228 reportes de salud anotados por expertos y aproximadamente 1 millón de reportes no anotados. Nuestra estrategia consistió en ajustar modelos de reconocimiento de entidades nombradas de última generación, incluyendo modelos BiLSTMCRF y modelos basados en transformers como RoBERTa. Nos enfocamos en modelos adaptados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que los segundos fueron pre-entrenados adicionalmente en nuestros reportes de salud no anotados. A pesar de las limitaciones computacionales, nuestros modelos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un modelo basado en transformers adaptado a la tarea y pre-entrenado sobre nuestro corpus no anotado, obtuvo el mejor rendimiento para el micro recall (79,30) y un F1 micro de 70,83, cifras comparables a estudios similares. De este modo, contribuimos al limitado cuerpo de trabajos en BioNLP en español.Sociedad Argentina de Informática e Investigación Operativa2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf102-102http://sedici.unlp.edu.ar/handle/10915/190547spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19758info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-27T11:46:30Zoai:sedici.unlp.edu.ar:10915/190547Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-27 11:46:31.097SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv	Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica Extraction of information from Electronic Medical Records written in Spanish to conduct epidemic intelligence
title	Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
spellingShingle	Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica Petri, Javier Ciencias Informáticas Reconocimiento de entidades nombradas BioNLP Historias clínicas electrónicas en español Detección automática de síntomas Vigilancia basada en eventos
title_short	Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
title_full	Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
title_fullStr	Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
title_full_unstemmed	Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
title_sort	Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
dc.creator.none.fl_str_mv	Petri, Javier Barcena Barbeira, Pilar Cotik, Viviana
author	Petri, Javier
author_facet	Petri, Javier Barcena Barbeira, Pilar Cotik, Viviana
author_role	author
author2	Barcena Barbeira, Pilar Cotik, Viviana
author2_role	author author
dc.subject.none.fl_str_mv	Ciencias Informáticas Reconocimiento de entidades nombradas BioNLP Historias clínicas electrónicas en español Detección automática de síntomas Vigilancia basada en eventos
topic	Ciencias Informáticas Reconocimiento de entidades nombradas BioNLP Historias clínicas electrónicas en español Detección automática de síntomas Vigilancia basada en eventos
dc.description.none.fl_txt_mv	La detección automática de síntomas a partir de historias clínicas electrónicas es una fuente valiosa para los sistemas de vigilancia basados en eventos. En este estudio, desarrollamos herramientas para detectar automáticamente síntomas asociados a enfermedades febriles en historias clínicas electrónicas redactadas en español. Para ello, utilizamos un corpus personalizado que incluye 6.228 reportes de salud anotados por expertos y aproximadamente 1 millón de reportes no anotados. Nuestra estrategia consistió en ajustar modelos de reconocimiento de entidades nombradas de última generación, incluyendo modelos BiLSTMCRF y modelos basados en transformers como RoBERTa. Nos enfocamos en modelos adaptados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que los segundos fueron pre-entrenados adicionalmente en nuestros reportes de salud no anotados. A pesar de las limitaciones computacionales, nuestros modelos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un modelo basado en transformers adaptado a la tarea y pre-entrenado sobre nuestro corpus no anotado, obtuvo el mejor rendimiento para el micro recall (79,30) y un F1 micro de 70,83, cifras comparables a estudios similares. De este modo, contribuimos al limitado cuerpo de trabajos en BioNLP en español. Sociedad Argentina de Informática e Investigación Operativa
description	La detección automática de síntomas a partir de historias clínicas electrónicas es una fuente valiosa para los sistemas de vigilancia basados en eventos. En este estudio, desarrollamos herramientas para detectar automáticamente síntomas asociados a enfermedades febriles en historias clínicas electrónicas redactadas en español. Para ello, utilizamos un corpus personalizado que incluye 6.228 reportes de salud anotados por expertos y aproximadamente 1 millón de reportes no anotados. Nuestra estrategia consistió en ajustar modelos de reconocimiento de entidades nombradas de última generación, incluyendo modelos BiLSTMCRF y modelos basados en transformers como RoBERTa. Nos enfocamos en modelos adaptados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que los segundos fueron pre-entrenados adicionalmente en nuestros reportes de salud no anotados. A pesar de las limitaciones computacionales, nuestros modelos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un modelo basado en transformers adaptado a la tarea y pre-entrenado sobre nuestro corpus no anotado, obtuvo el mejor rendimiento para el micro recall (79,30) y un F1 micro de 70,83, cifras comparables a estudios similares. De este modo, contribuimos al limitado cuerpo de trabajos en BioNLP en español.
publishDate	2025
dc.date.none.fl_str_mv	2025-08
dc.type.none.fl_str_mv	info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia
format	conferenceObject
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://sedici.unlp.edu.ar/handle/10915/190547
url	http://sedici.unlp.edu.ar/handle/10915/190547
dc.language.none.fl_str_mv	spa
language	spa
dc.relation.none.fl_str_mv	info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19758 info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv	application/pdf 102-102
dc.source.none.fl_str_mv	reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP
reponame_str	SEDICI (UNLP)
collection	SEDICI (UNLP)
instname_str	Universidad Nacional de La Plata
instacron_str	UNLP
institution	UNLP
repository.name.fl_str_mv	SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv	alira@sedici.unlp.edu.ar
_version_	1866372189108830208
score	13.343307

Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica

Publicaciones similares