Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica

Autores
Petri, Javier; Barcena Barbeira, Pilar; Cotik, Viviana
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
La detección automática de síntomas a partir de historias clínicas electrónicas es una fuente valiosa para los sistemas de vigilancia basados en eventos. En este estudio, desarrollamos herramientas para detectar automáticamente síntomas asociados a  enfermedades febriles en historias clínicas electrónicas redactadas en español. Para ello, utilizamos un corpus personalizado que incluye 6.228 reportes de salud anotados por expertos y aproximadamente 1 millón de reportes no anotados. Nuestra estrategia consistió en ajustar modelos de reconocimiento de entidades nombradas de última generación, incluyendo modelos BiLSTMCRF y modelos basados en transformers como RoBERTa. Nos enfocamos en modelos adaptados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que los segundos fueron pre-entrenados adicionalmente en nuestros reportes de salud no anotados. A pesar de las limitaciones computacionales, nuestros modelos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un modelo basado en transformers adaptado a la tarea y pre-entrenado sobre nuestro corpus no anotado, obtuvo el mejor rendimiento para el micro recall (79,30) y un F1 micro de 70,83, cifras comparables a estudios similares. De este modo, contribuimos al limitado cuerpo de trabajos en BioNLP en español.
Sociedad Argentina de Informática e Investigación Operativa
Materia
Ciencias Informáticas
Reconocimiento de entidades nombradas
BioNLP
Historias clínicas electrónicas en español
Detección automática de síntomas
Vigilancia basada en eventos
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/190547

id SEDICI_59d9facfe4ad405664e73f63c631ee9e
oai_identifier_str oai:sedici.unlp.edu.ar:10915/190547
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémicaExtraction of information from Electronic Medical Records written in Spanish to conduct epidemic intelligencePetri, JavierBarcena Barbeira, PilarCotik, VivianaCiencias InformáticasReconocimiento de entidades nombradasBioNLPHistorias clínicas electrónicas en españolDetección automática de síntomasVigilancia basada en eventosLa detección automática de síntomas a partir de historias clínicas electrónicas es una fuente valiosa para los sistemas de vigilancia basados en eventos. En este estudio, desarrollamos herramientas para detectar automáticamente síntomas asociados a  enfermedades febriles en historias clínicas electrónicas redactadas en español. Para ello, utilizamos un corpus personalizado que incluye 6.228 reportes de salud anotados por expertos y aproximadamente 1 millón de reportes no anotados. Nuestra estrategia consistió en ajustar modelos de reconocimiento de entidades nombradas de última generación, incluyendo modelos BiLSTMCRF y modelos basados en transformers como RoBERTa. Nos enfocamos en modelos adaptados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que los segundos fueron pre-entrenados adicionalmente en nuestros reportes de salud no anotados. A pesar de las limitaciones computacionales, nuestros modelos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un modelo basado en transformers adaptado a la tarea y pre-entrenado sobre nuestro corpus no anotado, obtuvo el mejor rendimiento para el micro recall (79,30) y un F1 micro de 70,83, cifras comparables a estudios similares. De este modo, contribuimos al limitado cuerpo de trabajos en BioNLP en español.Sociedad Argentina de Informática e Investigación Operativa2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf102-102http://sedici.unlp.edu.ar/handle/10915/190547spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19758info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-04-15T11:58:25Zoai:sedici.unlp.edu.ar:10915/190547Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-04-15 11:58:26.337SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
Extraction of information from Electronic Medical Records written in Spanish to conduct epidemic intelligence
title Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
spellingShingle Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
Petri, Javier
Ciencias Informáticas
Reconocimiento de entidades nombradas
BioNLP
Historias clínicas electrónicas en español
Detección automática de síntomas
Vigilancia basada en eventos
title_short Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
title_full Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
title_fullStr Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
title_full_unstemmed Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
title_sort Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
dc.creator.none.fl_str_mv Petri, Javier
Barcena Barbeira, Pilar
Cotik, Viviana
author Petri, Javier
author_facet Petri, Javier
Barcena Barbeira, Pilar
Cotik, Viviana
author_role author
author2 Barcena Barbeira, Pilar
Cotik, Viviana
author2_role author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Reconocimiento de entidades nombradas
BioNLP
Historias clínicas electrónicas en español
Detección automática de síntomas
Vigilancia basada en eventos
topic Ciencias Informáticas
Reconocimiento de entidades nombradas
BioNLP
Historias clínicas electrónicas en español
Detección automática de síntomas
Vigilancia basada en eventos
dc.description.none.fl_txt_mv La detección automática de síntomas a partir de historias clínicas electrónicas es una fuente valiosa para los sistemas de vigilancia basados en eventos. En este estudio, desarrollamos herramientas para detectar automáticamente síntomas asociados a  enfermedades febriles en historias clínicas electrónicas redactadas en español. Para ello, utilizamos un corpus personalizado que incluye 6.228 reportes de salud anotados por expertos y aproximadamente 1 millón de reportes no anotados. Nuestra estrategia consistió en ajustar modelos de reconocimiento de entidades nombradas de última generación, incluyendo modelos BiLSTMCRF y modelos basados en transformers como RoBERTa. Nos enfocamos en modelos adaptados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que los segundos fueron pre-entrenados adicionalmente en nuestros reportes de salud no anotados. A pesar de las limitaciones computacionales, nuestros modelos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un modelo basado en transformers adaptado a la tarea y pre-entrenado sobre nuestro corpus no anotado, obtuvo el mejor rendimiento para el micro recall (79,30) y un F1 micro de 70,83, cifras comparables a estudios similares. De este modo, contribuimos al limitado cuerpo de trabajos en BioNLP en español.
Sociedad Argentina de Informática e Investigación Operativa
description La detección automática de síntomas a partir de historias clínicas electrónicas es una fuente valiosa para los sistemas de vigilancia basados en eventos. En este estudio, desarrollamos herramientas para detectar automáticamente síntomas asociados a  enfermedades febriles en historias clínicas electrónicas redactadas en español. Para ello, utilizamos un corpus personalizado que incluye 6.228 reportes de salud anotados por expertos y aproximadamente 1 millón de reportes no anotados. Nuestra estrategia consistió en ajustar modelos de reconocimiento de entidades nombradas de última generación, incluyendo modelos BiLSTMCRF y modelos basados en transformers como RoBERTa. Nos enfocamos en modelos adaptados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que los segundos fueron pre-entrenados adicionalmente en nuestros reportes de salud no anotados. A pesar de las limitaciones computacionales, nuestros modelos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un modelo basado en transformers adaptado a la tarea y pre-entrenado sobre nuestro corpus no anotado, obtuvo el mejor rendimiento para el micro recall (79,30) y un F1 micro de 70,83, cifras comparables a estudios similares. De este modo, contribuimos al limitado cuerpo de trabajos en BioNLP en español.
publishDate 2025
dc.date.none.fl_str_mv 2025-08
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/190547
url http://sedici.unlp.edu.ar/handle/10915/190547
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19758
info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
102-102
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1862569406758912000
score 13.203462