Indicadores de calidad de la información en la anonimización de bases de datos de estadísticas oficiales
- Autores
- Bussi, Javier; Marí, Gonzalo Pablo Domingo; Méndez, Fernanda
- Año de publicación
- 2021
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- Los operativos estadísticos tienen por objetivo recolectar datos de unidades de observación que pueden estar constituidas por personas, hogares, empresas u otros objetos. Estos datos proveen información que, para el caso de las estadísticas oficiales, proporcionan elementos importantes para la evaluación de políticas implementadas y para la toma de decisiones a futuro. Si bien este es el objetivo primario, no puede desconocerse que existe una marcada tendencia en aumento a la difusión de la información a la sociedad para que la misma utilice los datos para analizarlos y poder obtener sus propias conclusiones. De esta forma, en los últimos tiempos, el término datos abiertos tuvo una expansión significativa, al punto tal que existen portales oficiales que contienen datos a los cuales el público en general puede acceder. Por otra parte, la Ley N° 17.622 menciona la obligación de respetar el secreto estadístico en la divulgación de los operativos que se llevan a cabo. De esta forma, existe una contraposición entre ambas posturas, datos abiertos versus secreto estadístico, que es importante a tener en cuenta para buscar soluciones que permitan brindar información sin violar el secreto estadístico. Es por este motivo, que se estudian distintas alternativas que se engloban dentro del término anonimización. Se propone utilizar métodos de anonimización perturbadores, los cuales modifican los datos observados de las unidades para evitar que un intruso pueda detectar, con información secundaria, la identidad de la misma, lo que provocaría que el organismo que difunde la información violase la ley mencionada. Se evalúan las técnicas de perturbación que adicionan un ruido aleatorio a los datos y la de microagregación, que asignan un valor representativo a todas las unidades que forman parte de un grupo de unidades determinado por la cercanía de las mismas. Se comparan los métodos propuestos a través de medidas que dan cuenta de la distorsión que producen en las estimaciones de ciertos parámetros la aplicación de los métodos de perturbación a los datos originales. En el presente trabajo, se evalúan ciertos escenarios de anonimización sobre la base usuario de la ENGHO publicada por el INDEC, utilizando las bases de pesos replicados para la estimación de ciertos parámetros que cuantifican el error muestral. En general, los métodos que adicionan un ruido aleatorio no correlacionado presentan mejores resultados que sus competidores, y más consistentes que los que produce el método de microagregación.
Statistical operations have the objective of collecting data from observation units that can be made up of people, houses, companies or other objects. These data, in the case of official statistics, provide important elements for the evaluation of implemented policies and for future decision-making. Although this is the primary objective, it cannot be ignored that there is a growing trend towards the dissemination of information to society so that private users can analyze the data and be able to obtain their own conclusions. In this way, in recent times, the term open data has had a significant expansion, to the point that there are official portals that contain data that the general public can access to. On the other hand, Law No. 17,622 mentions the obligation to respect statistical secrecy in the disclosure of operations carried out. In this way, there is a contrast between both positions, open data versus statistical secrecy, which is important to take into account to find solutions that allow information to be provided without violating statistical secrecy. It is for this reason that different alternatives that are included within the term anonymization are studied. It is proposed to use perturbative anonymization methods, which modify the observed data of the units to prevent an intruder from detecting, with secondary information, the identity of the unit, which would cause the organization that disseminates the information to violate the mentioned law. Perturbative techniques that add random noise to the data and the method of microaggregation are evaluated. Microaggregation assigns a representative value to all the units that are part of a group of units determined by their proximity. The proposed methods are compared through measurements that account for the distortion produced in the estimates of certain parameters by the application of the perturbative methods to the original data. In this work, certain anonimization scenarios are evaluated on the database of the ENGHO published by the INDEC, using the replicated weight bases for the estimation of certain parameters that quantify the sampling error. In general, the methods that add uncorrelated random noise present better results than their competitors, and more consistent than those produced by the microaggregation method.
Fil: Fil: Bussi, Javier - Facultad Ciencias Económicas y Estadística - Universidad Nacional de Rosario -Argentina
Fil: Fil: Marí, Gonzalo Pablo Domingo - Facultad Ciencias Económicas y Estadística - Universidad Nacional de Rosario -Argentina
Fil: Fil: Méndez, Fernanda - Facultad Ciencias Económicas y Estadística - Universidad Nacional de Rosario -Argentina - Materia
-
estadísticas oficiales
anonimización
indicadores de calidad
Official statistics
anonymisation
quality indicators - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- Atribución – No Comercial – Compartir Igual (by-nc-sa)
- Repositorio
- Institución
- Universidad Nacional de Rosario
- OAI Identificador
- oai:rephip.unr.edu.ar:2133/20823
Ver los metadatos del registro completo
id |
RepHipUNR_3c9f83c5235b271cabfe816425af3eb8 |
---|---|
oai_identifier_str |
oai:rephip.unr.edu.ar:2133/20823 |
network_acronym_str |
RepHipUNR |
repository_id_str |
1550 |
network_name_str |
RepHipUNR (UNR) |
spelling |
Indicadores de calidad de la información en la anonimización de bases de datos de estadísticas oficialesBussi, JavierMarí, Gonzalo Pablo DomingoMéndez, Fernandaestadísticas oficialesanonimizaciónindicadores de calidadOfficial statisticsanonymisationquality indicatorsLos operativos estadísticos tienen por objetivo recolectar datos de unidades de observación que pueden estar constituidas por personas, hogares, empresas u otros objetos. Estos datos proveen información que, para el caso de las estadísticas oficiales, proporcionan elementos importantes para la evaluación de políticas implementadas y para la toma de decisiones a futuro. Si bien este es el objetivo primario, no puede desconocerse que existe una marcada tendencia en aumento a la difusión de la información a la sociedad para que la misma utilice los datos para analizarlos y poder obtener sus propias conclusiones. De esta forma, en los últimos tiempos, el término datos abiertos tuvo una expansión significativa, al punto tal que existen portales oficiales que contienen datos a los cuales el público en general puede acceder. Por otra parte, la Ley N° 17.622 menciona la obligación de respetar el secreto estadístico en la divulgación de los operativos que se llevan a cabo. De esta forma, existe una contraposición entre ambas posturas, datos abiertos versus secreto estadístico, que es importante a tener en cuenta para buscar soluciones que permitan brindar información sin violar el secreto estadístico. Es por este motivo, que se estudian distintas alternativas que se engloban dentro del término anonimización. Se propone utilizar métodos de anonimización perturbadores, los cuales modifican los datos observados de las unidades para evitar que un intruso pueda detectar, con información secundaria, la identidad de la misma, lo que provocaría que el organismo que difunde la información violase la ley mencionada. Se evalúan las técnicas de perturbación que adicionan un ruido aleatorio a los datos y la de microagregación, que asignan un valor representativo a todas las unidades que forman parte de un grupo de unidades determinado por la cercanía de las mismas. Se comparan los métodos propuestos a través de medidas que dan cuenta de la distorsión que producen en las estimaciones de ciertos parámetros la aplicación de los métodos de perturbación a los datos originales. En el presente trabajo, se evalúan ciertos escenarios de anonimización sobre la base usuario de la ENGHO publicada por el INDEC, utilizando las bases de pesos replicados para la estimación de ciertos parámetros que cuantifican el error muestral. En general, los métodos que adicionan un ruido aleatorio no correlacionado presentan mejores resultados que sus competidores, y más consistentes que los que produce el método de microagregación.Statistical operations have the objective of collecting data from observation units that can be made up of people, houses, companies or other objects. These data, in the case of official statistics, provide important elements for the evaluation of implemented policies and for future decision-making. Although this is the primary objective, it cannot be ignored that there is a growing trend towards the dissemination of information to society so that private users can analyze the data and be able to obtain their own conclusions. In this way, in recent times, the term open data has had a significant expansion, to the point that there are official portals that contain data that the general public can access to. On the other hand, Law No. 17,622 mentions the obligation to respect statistical secrecy in the disclosure of operations carried out. In this way, there is a contrast between both positions, open data versus statistical secrecy, which is important to take into account to find solutions that allow information to be provided without violating statistical secrecy. It is for this reason that different alternatives that are included within the term anonymization are studied. It is proposed to use perturbative anonymization methods, which modify the observed data of the units to prevent an intruder from detecting, with secondary information, the identity of the unit, which would cause the organization that disseminates the information to violate the mentioned law. Perturbative techniques that add random noise to the data and the method of microaggregation are evaluated. Microaggregation assigns a representative value to all the units that are part of a group of units determined by their proximity. The proposed methods are compared through measurements that account for the distortion produced in the estimates of certain parameters by the application of the perturbative methods to the original data. In this work, certain anonimization scenarios are evaluated on the database of the ENGHO published by the INDEC, using the replicated weight bases for the estimation of certain parameters that quantify the sampling error. In general, the methods that add uncorrelated random noise present better results than their competitors, and more consistent than those produced by the microaggregation method.Fil: Fil: Bussi, Javier - Facultad Ciencias Económicas y Estadística - Universidad Nacional de Rosario -ArgentinaFil: Fil: Marí, Gonzalo Pablo Domingo - Facultad Ciencias Económicas y Estadística - Universidad Nacional de Rosario -ArgentinaFil: Fil: Méndez, Fernanda - Facultad Ciencias Económicas y Estadística - Universidad Nacional de Rosario -ArgentinaSecretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosario2021-04-26info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://hdl.handle.net/2133/20823urn:issn: 1668-5008spahttps://www.fcecon.unr.edu.ar/web-nueva/investigacion/actas-de-las-jornadas-anualesinfo:eu-repo/semantics/openAccessAtribución – No Comercial – Compartir Igual (by-nc-sa)http://creativecommons.org/licenses/by-nc-sa/2.5/ar/Licencia RepHipreponame:RepHipUNR (UNR)instname:Universidad Nacional de Rosario2025-09-29T13:40:47Zoai:rephip.unr.edu.ar:2133/20823instacron:UNRInstitucionalhttps://rephip.unr.edu.ar/Universidad públicaNo correspondehttps://rephip.unr.edu.ar/oai/requestrephip@unr.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:15502025-09-29 13:40:48.078RepHipUNR (UNR) - Universidad Nacional de Rosariofalse |
dc.title.none.fl_str_mv |
Indicadores de calidad de la información en la anonimización de bases de datos de estadísticas oficiales |
title |
Indicadores de calidad de la información en la anonimización de bases de datos de estadísticas oficiales |
spellingShingle |
Indicadores de calidad de la información en la anonimización de bases de datos de estadísticas oficiales Bussi, Javier estadísticas oficiales anonimización indicadores de calidad Official statistics anonymisation quality indicators |
title_short |
Indicadores de calidad de la información en la anonimización de bases de datos de estadísticas oficiales |
title_full |
Indicadores de calidad de la información en la anonimización de bases de datos de estadísticas oficiales |
title_fullStr |
Indicadores de calidad de la información en la anonimización de bases de datos de estadísticas oficiales |
title_full_unstemmed |
Indicadores de calidad de la información en la anonimización de bases de datos de estadísticas oficiales |
title_sort |
Indicadores de calidad de la información en la anonimización de bases de datos de estadísticas oficiales |
dc.creator.none.fl_str_mv |
Bussi, Javier Marí, Gonzalo Pablo Domingo Méndez, Fernanda |
author |
Bussi, Javier |
author_facet |
Bussi, Javier Marí, Gonzalo Pablo Domingo Méndez, Fernanda |
author_role |
author |
author2 |
Marí, Gonzalo Pablo Domingo Méndez, Fernanda |
author2_role |
author author |
dc.contributor.none.fl_str_mv |
Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosario |
dc.subject.none.fl_str_mv |
estadísticas oficiales anonimización indicadores de calidad Official statistics anonymisation quality indicators |
topic |
estadísticas oficiales anonimización indicadores de calidad Official statistics anonymisation quality indicators |
dc.description.none.fl_txt_mv |
Los operativos estadísticos tienen por objetivo recolectar datos de unidades de observación que pueden estar constituidas por personas, hogares, empresas u otros objetos. Estos datos proveen información que, para el caso de las estadísticas oficiales, proporcionan elementos importantes para la evaluación de políticas implementadas y para la toma de decisiones a futuro. Si bien este es el objetivo primario, no puede desconocerse que existe una marcada tendencia en aumento a la difusión de la información a la sociedad para que la misma utilice los datos para analizarlos y poder obtener sus propias conclusiones. De esta forma, en los últimos tiempos, el término datos abiertos tuvo una expansión significativa, al punto tal que existen portales oficiales que contienen datos a los cuales el público en general puede acceder. Por otra parte, la Ley N° 17.622 menciona la obligación de respetar el secreto estadístico en la divulgación de los operativos que se llevan a cabo. De esta forma, existe una contraposición entre ambas posturas, datos abiertos versus secreto estadístico, que es importante a tener en cuenta para buscar soluciones que permitan brindar información sin violar el secreto estadístico. Es por este motivo, que se estudian distintas alternativas que se engloban dentro del término anonimización. Se propone utilizar métodos de anonimización perturbadores, los cuales modifican los datos observados de las unidades para evitar que un intruso pueda detectar, con información secundaria, la identidad de la misma, lo que provocaría que el organismo que difunde la información violase la ley mencionada. Se evalúan las técnicas de perturbación que adicionan un ruido aleatorio a los datos y la de microagregación, que asignan un valor representativo a todas las unidades que forman parte de un grupo de unidades determinado por la cercanía de las mismas. Se comparan los métodos propuestos a través de medidas que dan cuenta de la distorsión que producen en las estimaciones de ciertos parámetros la aplicación de los métodos de perturbación a los datos originales. En el presente trabajo, se evalúan ciertos escenarios de anonimización sobre la base usuario de la ENGHO publicada por el INDEC, utilizando las bases de pesos replicados para la estimación de ciertos parámetros que cuantifican el error muestral. En general, los métodos que adicionan un ruido aleatorio no correlacionado presentan mejores resultados que sus competidores, y más consistentes que los que produce el método de microagregación. Statistical operations have the objective of collecting data from observation units that can be made up of people, houses, companies or other objects. These data, in the case of official statistics, provide important elements for the evaluation of implemented policies and for future decision-making. Although this is the primary objective, it cannot be ignored that there is a growing trend towards the dissemination of information to society so that private users can analyze the data and be able to obtain their own conclusions. In this way, in recent times, the term open data has had a significant expansion, to the point that there are official portals that contain data that the general public can access to. On the other hand, Law No. 17,622 mentions the obligation to respect statistical secrecy in the disclosure of operations carried out. In this way, there is a contrast between both positions, open data versus statistical secrecy, which is important to take into account to find solutions that allow information to be provided without violating statistical secrecy. It is for this reason that different alternatives that are included within the term anonymization are studied. It is proposed to use perturbative anonymization methods, which modify the observed data of the units to prevent an intruder from detecting, with secondary information, the identity of the unit, which would cause the organization that disseminates the information to violate the mentioned law. Perturbative techniques that add random noise to the data and the method of microaggregation are evaluated. Microaggregation assigns a representative value to all the units that are part of a group of units determined by their proximity. The proposed methods are compared through measurements that account for the distortion produced in the estimates of certain parameters by the application of the perturbative methods to the original data. In this work, certain anonimization scenarios are evaluated on the database of the ENGHO published by the INDEC, using the replicated weight bases for the estimation of certain parameters that quantify the sampling error. In general, the methods that add uncorrelated random noise present better results than their competitors, and more consistent than those produced by the microaggregation method. Fil: Fil: Bussi, Javier - Facultad Ciencias Económicas y Estadística - Universidad Nacional de Rosario -Argentina Fil: Fil: Marí, Gonzalo Pablo Domingo - Facultad Ciencias Económicas y Estadística - Universidad Nacional de Rosario -Argentina Fil: Fil: Méndez, Fernanda - Facultad Ciencias Económicas y Estadística - Universidad Nacional de Rosario -Argentina |
description |
Los operativos estadísticos tienen por objetivo recolectar datos de unidades de observación que pueden estar constituidas por personas, hogares, empresas u otros objetos. Estos datos proveen información que, para el caso de las estadísticas oficiales, proporcionan elementos importantes para la evaluación de políticas implementadas y para la toma de decisiones a futuro. Si bien este es el objetivo primario, no puede desconocerse que existe una marcada tendencia en aumento a la difusión de la información a la sociedad para que la misma utilice los datos para analizarlos y poder obtener sus propias conclusiones. De esta forma, en los últimos tiempos, el término datos abiertos tuvo una expansión significativa, al punto tal que existen portales oficiales que contienen datos a los cuales el público en general puede acceder. Por otra parte, la Ley N° 17.622 menciona la obligación de respetar el secreto estadístico en la divulgación de los operativos que se llevan a cabo. De esta forma, existe una contraposición entre ambas posturas, datos abiertos versus secreto estadístico, que es importante a tener en cuenta para buscar soluciones que permitan brindar información sin violar el secreto estadístico. Es por este motivo, que se estudian distintas alternativas que se engloban dentro del término anonimización. Se propone utilizar métodos de anonimización perturbadores, los cuales modifican los datos observados de las unidades para evitar que un intruso pueda detectar, con información secundaria, la identidad de la misma, lo que provocaría que el organismo que difunde la información violase la ley mencionada. Se evalúan las técnicas de perturbación que adicionan un ruido aleatorio a los datos y la de microagregación, que asignan un valor representativo a todas las unidades que forman parte de un grupo de unidades determinado por la cercanía de las mismas. Se comparan los métodos propuestos a través de medidas que dan cuenta de la distorsión que producen en las estimaciones de ciertos parámetros la aplicación de los métodos de perturbación a los datos originales. En el presente trabajo, se evalúan ciertos escenarios de anonimización sobre la base usuario de la ENGHO publicada por el INDEC, utilizando las bases de pesos replicados para la estimación de ciertos parámetros que cuantifican el error muestral. En general, los métodos que adicionan un ruido aleatorio no correlacionado presentan mejores resultados que sus competidores, y más consistentes que los que produce el método de microagregación. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-04-26 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
format |
conferenceObject |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://hdl.handle.net/2133/20823 urn:issn: 1668-5008 |
url |
http://hdl.handle.net/2133/20823 |
identifier_str_mv |
urn:issn: 1668-5008 |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.relation.none.fl_str_mv |
https://www.fcecon.unr.edu.ar/web-nueva/investigacion/actas-de-las-jornadas-anuales |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess Atribución – No Comercial – Compartir Igual (by-nc-sa) http://creativecommons.org/licenses/by-nc-sa/2.5/ar/ Licencia RepHip |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
Atribución – No Comercial – Compartir Igual (by-nc-sa) http://creativecommons.org/licenses/by-nc-sa/2.5/ar/ Licencia RepHip |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:RepHipUNR (UNR) instname:Universidad Nacional de Rosario |
reponame_str |
RepHipUNR (UNR) |
collection |
RepHipUNR (UNR) |
instname_str |
Universidad Nacional de Rosario |
repository.name.fl_str_mv |
RepHipUNR (UNR) - Universidad Nacional de Rosario |
repository.mail.fl_str_mv |
rephip@unr.edu.ar |
_version_ |
1844618774008823808 |
score |
13.070432 |