Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español

Autores
Rajngewerc, Mariela; López, Sabrina; Silvi, Luciano; Ación, Laura; Alonso Alemany, Laura
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Los registros de salud provenientes de historias clínicas electrónicas (HCE) son una fuente valiosa de información para múltiples usos secundarios de investigación, planeamiento, etc. Sin embargo, son datos sensibles y se encuentran legalmente protegidos por su potencial impacto en derechos fundamentales, como el derecho a la intimidad o a la no discriminación (por ej. en el acceso al mercado de trabajo).Por ello, para adecuar los registros de salud a un uso secundario, resulta imprescindible aplicar procesos que eliminen aquella información que permita identificar al titular de los datos (desidentificación).En este trabajo presentamos una prueba de factibilidad de la desidentificación automática de texto libre en HCE. Se analizó una aproximación a la tarea, con especial atención a los potenciales sesgos en su funcionamiento, que pueden resultar en comportamientos discriminatorios. Teniendo en cuenta las particularidades de los datos: homogeneidad, heterogeneidad y proporción de entidades identificatorias, se aplicaron las métricas: Treatment Equality, Equal Opportunity, Equalized Odds y Conditional Use Accuracy Equality, para analizar la existencia de sesgos producidos por el modelo.
Health records from electronic health records (EHR) are a valuable source of information for multiple secondary uses of research, planning, etc. However, they are sensitive data legally protected due to their potential impact on fundamental rights, such as the right to privacy or non-discrimination (for example, in access to the labor market).For this reason, to adapt health records to secondary use, it is essential to apply processes that eliminate information that allows the owner of the data to be identified (de-identification).This paper presents a feasibility test of the automatic de-identification of free text in EHR. An approach to the task was analyzed, with particular attention to the potential biases in its functioning, which can result in discriminatory behaviors. Taking into account the particularities of the data: homogeneity, heterogeneity, and proportion of identifying entities, the metrics: Treatment Equality, Equal Opportunity, Equalized Odds, and Conditional Use Accuracy Equality were applied to analyze the existence of biases produced by the model.
Sociedad Argentina de Informática e Investigación Operativa
Materia
Ciencias Informáticas
Historia clínica electrónica
anonimización
sesgos
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/166479

id SEDICI_39f2d223c9d58a7e31c40adbe58008a3
oai_identifier_str oai:sedici.unlp.edu.ar:10915/166479
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en españolDevelopment and bias analysis of a de-identification model for electronic health records in SpanishRajngewerc, MarielaLópez, SabrinaSilvi, LucianoAción, LauraAlonso Alemany, LauraCiencias InformáticasHistoria clínica electrónicaanonimizaciónsesgosLos registros de salud provenientes de historias clínicas electrónicas (HCE) son una fuente valiosa de información para múltiples usos secundarios de investigación, planeamiento, etc. Sin embargo, son datos sensibles y se encuentran legalmente protegidos por su potencial impacto en derechos fundamentales, como el derecho a la intimidad o a la no discriminación (por ej. en el acceso al mercado de trabajo).Por ello, para adecuar los registros de salud a un uso secundario, resulta imprescindible aplicar procesos que eliminen aquella información que permita identificar al titular de los datos (desidentificación).En este trabajo presentamos una prueba de factibilidad de la desidentificación automática de texto libre en HCE. Se analizó una aproximación a la tarea, con especial atención a los potenciales sesgos en su funcionamiento, que pueden resultar en comportamientos discriminatorios. Teniendo en cuenta las particularidades de los datos: homogeneidad, heterogeneidad y proporción de entidades identificatorias, se aplicaron las métricas: Treatment Equality, Equal Opportunity, Equalized Odds y Conditional Use Accuracy Equality, para analizar la existencia de sesgos producidos por el modelo.Health records from electronic health records (EHR) are a valuable source of information for multiple secondary uses of research, planning, etc. However, they are sensitive data legally protected due to their potential impact on fundamental rights, such as the right to privacy or non-discrimination (for example, in access to the labor market).For this reason, to adapt health records to secondary use, it is essential to apply processes that eliminate information that allows the owner of the data to be identified (de-identification).This paper presents a feasibility test of the automatic de-identification of free text in EHR. An approach to the task was analyzed, with particular attention to the potential biases in its functioning, which can result in discriminatory behaviors. Taking into account the particularities of the data: homogeneity, heterogeneity, and proportion of identifying entities, the metrics: Treatment Equality, Equal Opportunity, Equalized Odds, and Conditional Use Accuracy Equality were applied to analyze the existence of biases produced by the model.Sociedad Argentina de Informática e Investigación Operativa2023-09info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf102-107http://sedici.unlp.edu.ar/handle/10915/166479spainfo:eu-repo/semantics/altIdentifier/url/https://publicaciones.sadio.org.ar/index.php/JAIIO/article/view/554info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:43:51Zoai:sedici.unlp.edu.ar:10915/166479Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:43:52.141SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español
Development and bias analysis of a de-identification model for electronic health records in Spanish
title Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español
spellingShingle Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español
Rajngewerc, Mariela
Ciencias Informáticas
Historia clínica electrónica
anonimización
sesgos
title_short Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español
title_full Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español
title_fullStr Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español
title_full_unstemmed Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español
title_sort Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español
dc.creator.none.fl_str_mv Rajngewerc, Mariela
López, Sabrina
Silvi, Luciano
Ación, Laura
Alonso Alemany, Laura
author Rajngewerc, Mariela
author_facet Rajngewerc, Mariela
López, Sabrina
Silvi, Luciano
Ación, Laura
Alonso Alemany, Laura
author_role author
author2 López, Sabrina
Silvi, Luciano
Ación, Laura
Alonso Alemany, Laura
author2_role author
author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Historia clínica electrónica
anonimización
sesgos
topic Ciencias Informáticas
Historia clínica electrónica
anonimización
sesgos
dc.description.none.fl_txt_mv Los registros de salud provenientes de historias clínicas electrónicas (HCE) son una fuente valiosa de información para múltiples usos secundarios de investigación, planeamiento, etc. Sin embargo, son datos sensibles y se encuentran legalmente protegidos por su potencial impacto en derechos fundamentales, como el derecho a la intimidad o a la no discriminación (por ej. en el acceso al mercado de trabajo).Por ello, para adecuar los registros de salud a un uso secundario, resulta imprescindible aplicar procesos que eliminen aquella información que permita identificar al titular de los datos (desidentificación).En este trabajo presentamos una prueba de factibilidad de la desidentificación automática de texto libre en HCE. Se analizó una aproximación a la tarea, con especial atención a los potenciales sesgos en su funcionamiento, que pueden resultar en comportamientos discriminatorios. Teniendo en cuenta las particularidades de los datos: homogeneidad, heterogeneidad y proporción de entidades identificatorias, se aplicaron las métricas: Treatment Equality, Equal Opportunity, Equalized Odds y Conditional Use Accuracy Equality, para analizar la existencia de sesgos producidos por el modelo.
Health records from electronic health records (EHR) are a valuable source of information for multiple secondary uses of research, planning, etc. However, they are sensitive data legally protected due to their potential impact on fundamental rights, such as the right to privacy or non-discrimination (for example, in access to the labor market).For this reason, to adapt health records to secondary use, it is essential to apply processes that eliminate information that allows the owner of the data to be identified (de-identification).This paper presents a feasibility test of the automatic de-identification of free text in EHR. An approach to the task was analyzed, with particular attention to the potential biases in its functioning, which can result in discriminatory behaviors. Taking into account the particularities of the data: homogeneity, heterogeneity, and proportion of identifying entities, the metrics: Treatment Equality, Equal Opportunity, Equalized Odds, and Conditional Use Accuracy Equality were applied to analyze the existence of biases produced by the model.
Sociedad Argentina de Informática e Investigación Operativa
description Los registros de salud provenientes de historias clínicas electrónicas (HCE) son una fuente valiosa de información para múltiples usos secundarios de investigación, planeamiento, etc. Sin embargo, son datos sensibles y se encuentran legalmente protegidos por su potencial impacto en derechos fundamentales, como el derecho a la intimidad o a la no discriminación (por ej. en el acceso al mercado de trabajo).Por ello, para adecuar los registros de salud a un uso secundario, resulta imprescindible aplicar procesos que eliminen aquella información que permita identificar al titular de los datos (desidentificación).En este trabajo presentamos una prueba de factibilidad de la desidentificación automática de texto libre en HCE. Se analizó una aproximación a la tarea, con especial atención a los potenciales sesgos en su funcionamiento, que pueden resultar en comportamientos discriminatorios. Teniendo en cuenta las particularidades de los datos: homogeneidad, heterogeneidad y proporción de entidades identificatorias, se aplicaron las métricas: Treatment Equality, Equal Opportunity, Equalized Odds y Conditional Use Accuracy Equality, para analizar la existencia de sesgos producidos por el modelo.
publishDate 2023
dc.date.none.fl_str_mv 2023-09
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/166479
url http://sedici.unlp.edu.ar/handle/10915/166479
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://publicaciones.sadio.org.ar/index.php/JAIIO/article/view/554
info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
102-107
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844616306839519232
score 13.070432