Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español
- Autores
- Rajngewerc, Mariela; López, Sabrina; Silvi, Luciano; Ación, Laura; Alonso Alemany, Laura
- Año de publicación
- 2023
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- Los registros de salud provenientes de historias clínicas electrónicas (HCE) son una fuente valiosa de información para múltiples usos secundarios de investigación, planeamiento, etc. Sin embargo, son datos sensibles y se encuentran legalmente protegidos por su potencial impacto en derechos fundamentales, como el derecho a la intimidad o a la no discriminación (por ej. en el acceso al mercado de trabajo).Por ello, para adecuar los registros de salud a un uso secundario, resulta imprescindible aplicar procesos que eliminen aquella información que permita identificar al titular de los datos (desidentificación).En este trabajo presentamos una prueba de factibilidad de la desidentificación automática de texto libre en HCE. Se analizó una aproximación a la tarea, con especial atención a los potenciales sesgos en su funcionamiento, que pueden resultar en comportamientos discriminatorios. Teniendo en cuenta las particularidades de los datos: homogeneidad, heterogeneidad y proporción de entidades identificatorias, se aplicaron las métricas: Treatment Equality, Equal Opportunity, Equalized Odds y Conditional Use Accuracy Equality, para analizar la existencia de sesgos producidos por el modelo.
Health records from electronic health records (EHR) are a valuable source of information for multiple secondary uses of research, planning, etc. However, they are sensitive data legally protected due to their potential impact on fundamental rights, such as the right to privacy or non-discrimination (for example, in access to the labor market).For this reason, to adapt health records to secondary use, it is essential to apply processes that eliminate information that allows the owner of the data to be identified (de-identification).This paper presents a feasibility test of the automatic de-identification of free text in EHR. An approach to the task was analyzed, with particular attention to the potential biases in its functioning, which can result in discriminatory behaviors. Taking into account the particularities of the data: homogeneity, heterogeneity, and proportion of identifying entities, the metrics: Treatment Equality, Equal Opportunity, Equalized Odds, and Conditional Use Accuracy Equality were applied to analyze the existence of biases produced by the model.
Sociedad Argentina de Informática e Investigación Operativa - Materia
-
Ciencias Informáticas
Historia clínica electrónica
anonimización
sesgos - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/166479
Ver los metadatos del registro completo
id |
SEDICI_39f2d223c9d58a7e31c40adbe58008a3 |
---|---|
oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/166479 |
network_acronym_str |
SEDICI |
repository_id_str |
1329 |
network_name_str |
SEDICI (UNLP) |
spelling |
Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en españolDevelopment and bias analysis of a de-identification model for electronic health records in SpanishRajngewerc, MarielaLópez, SabrinaSilvi, LucianoAción, LauraAlonso Alemany, LauraCiencias InformáticasHistoria clínica electrónicaanonimizaciónsesgosLos registros de salud provenientes de historias clínicas electrónicas (HCE) son una fuente valiosa de información para múltiples usos secundarios de investigación, planeamiento, etc. Sin embargo, son datos sensibles y se encuentran legalmente protegidos por su potencial impacto en derechos fundamentales, como el derecho a la intimidad o a la no discriminación (por ej. en el acceso al mercado de trabajo).Por ello, para adecuar los registros de salud a un uso secundario, resulta imprescindible aplicar procesos que eliminen aquella información que permita identificar al titular de los datos (desidentificación).En este trabajo presentamos una prueba de factibilidad de la desidentificación automática de texto libre en HCE. Se analizó una aproximación a la tarea, con especial atención a los potenciales sesgos en su funcionamiento, que pueden resultar en comportamientos discriminatorios. Teniendo en cuenta las particularidades de los datos: homogeneidad, heterogeneidad y proporción de entidades identificatorias, se aplicaron las métricas: Treatment Equality, Equal Opportunity, Equalized Odds y Conditional Use Accuracy Equality, para analizar la existencia de sesgos producidos por el modelo.Health records from electronic health records (EHR) are a valuable source of information for multiple secondary uses of research, planning, etc. However, they are sensitive data legally protected due to their potential impact on fundamental rights, such as the right to privacy or non-discrimination (for example, in access to the labor market).For this reason, to adapt health records to secondary use, it is essential to apply processes that eliminate information that allows the owner of the data to be identified (de-identification).This paper presents a feasibility test of the automatic de-identification of free text in EHR. An approach to the task was analyzed, with particular attention to the potential biases in its functioning, which can result in discriminatory behaviors. Taking into account the particularities of the data: homogeneity, heterogeneity, and proportion of identifying entities, the metrics: Treatment Equality, Equal Opportunity, Equalized Odds, and Conditional Use Accuracy Equality were applied to analyze the existence of biases produced by the model.Sociedad Argentina de Informática e Investigación Operativa2023-09info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf102-107http://sedici.unlp.edu.ar/handle/10915/166479spainfo:eu-repo/semantics/altIdentifier/url/https://publicaciones.sadio.org.ar/index.php/JAIIO/article/view/554info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:43:51Zoai:sedici.unlp.edu.ar:10915/166479Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:43:52.141SEDICI (UNLP) - Universidad Nacional de La Platafalse |
dc.title.none.fl_str_mv |
Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español Development and bias analysis of a de-identification model for electronic health records in Spanish |
title |
Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español |
spellingShingle |
Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español Rajngewerc, Mariela Ciencias Informáticas Historia clínica electrónica anonimización sesgos |
title_short |
Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español |
title_full |
Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español |
title_fullStr |
Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español |
title_full_unstemmed |
Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español |
title_sort |
Desarrollo y análisis de sesgos de un modelo de desidentificación de historias clínicas electrónicas en español |
dc.creator.none.fl_str_mv |
Rajngewerc, Mariela López, Sabrina Silvi, Luciano Ación, Laura Alonso Alemany, Laura |
author |
Rajngewerc, Mariela |
author_facet |
Rajngewerc, Mariela López, Sabrina Silvi, Luciano Ación, Laura Alonso Alemany, Laura |
author_role |
author |
author2 |
López, Sabrina Silvi, Luciano Ación, Laura Alonso Alemany, Laura |
author2_role |
author author author author |
dc.subject.none.fl_str_mv |
Ciencias Informáticas Historia clínica electrónica anonimización sesgos |
topic |
Ciencias Informáticas Historia clínica electrónica anonimización sesgos |
dc.description.none.fl_txt_mv |
Los registros de salud provenientes de historias clínicas electrónicas (HCE) son una fuente valiosa de información para múltiples usos secundarios de investigación, planeamiento, etc. Sin embargo, son datos sensibles y se encuentran legalmente protegidos por su potencial impacto en derechos fundamentales, como el derecho a la intimidad o a la no discriminación (por ej. en el acceso al mercado de trabajo).Por ello, para adecuar los registros de salud a un uso secundario, resulta imprescindible aplicar procesos que eliminen aquella información que permita identificar al titular de los datos (desidentificación).En este trabajo presentamos una prueba de factibilidad de la desidentificación automática de texto libre en HCE. Se analizó una aproximación a la tarea, con especial atención a los potenciales sesgos en su funcionamiento, que pueden resultar en comportamientos discriminatorios. Teniendo en cuenta las particularidades de los datos: homogeneidad, heterogeneidad y proporción de entidades identificatorias, se aplicaron las métricas: Treatment Equality, Equal Opportunity, Equalized Odds y Conditional Use Accuracy Equality, para analizar la existencia de sesgos producidos por el modelo. Health records from electronic health records (EHR) are a valuable source of information for multiple secondary uses of research, planning, etc. However, they are sensitive data legally protected due to their potential impact on fundamental rights, such as the right to privacy or non-discrimination (for example, in access to the labor market).For this reason, to adapt health records to secondary use, it is essential to apply processes that eliminate information that allows the owner of the data to be identified (de-identification).This paper presents a feasibility test of the automatic de-identification of free text in EHR. An approach to the task was analyzed, with particular attention to the potential biases in its functioning, which can result in discriminatory behaviors. Taking into account the particularities of the data: homogeneity, heterogeneity, and proportion of identifying entities, the metrics: Treatment Equality, Equal Opportunity, Equalized Odds, and Conditional Use Accuracy Equality were applied to analyze the existence of biases produced by the model. Sociedad Argentina de Informática e Investigación Operativa |
description |
Los registros de salud provenientes de historias clínicas electrónicas (HCE) son una fuente valiosa de información para múltiples usos secundarios de investigación, planeamiento, etc. Sin embargo, son datos sensibles y se encuentran legalmente protegidos por su potencial impacto en derechos fundamentales, como el derecho a la intimidad o a la no discriminación (por ej. en el acceso al mercado de trabajo).Por ello, para adecuar los registros de salud a un uso secundario, resulta imprescindible aplicar procesos que eliminen aquella información que permita identificar al titular de los datos (desidentificación).En este trabajo presentamos una prueba de factibilidad de la desidentificación automática de texto libre en HCE. Se analizó una aproximación a la tarea, con especial atención a los potenciales sesgos en su funcionamiento, que pueden resultar en comportamientos discriminatorios. Teniendo en cuenta las particularidades de los datos: homogeneidad, heterogeneidad y proporción de entidades identificatorias, se aplicaron las métricas: Treatment Equality, Equal Opportunity, Equalized Odds y Conditional Use Accuracy Equality, para analizar la existencia de sesgos producidos por el modelo. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-09 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
format |
conferenceObject |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/166479 |
url |
http://sedici.unlp.edu.ar/handle/10915/166479 |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://publicaciones.sadio.org.ar/index.php/JAIIO/article/view/554 info:eu-repo/semantics/altIdentifier/issn/2451-7496 |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
dc.format.none.fl_str_mv |
application/pdf 102-107 |
dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
reponame_str |
SEDICI (UNLP) |
collection |
SEDICI (UNLP) |
instname_str |
Universidad Nacional de La Plata |
instacron_str |
UNLP |
institution |
UNLP |
repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
_version_ |
1844616306839519232 |
score |
13.070432 |