Datos abiertos: gestión de datos de investigación

Autores
Sucar Succar, Enrique
Año de publicación
2021
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Las bases de datos (BD) son el «oro» de la investigación científica, por lo que es importante hacerlas accesibles a la comunidad; sin embargo, en algunos campos, como la medicina, es díficil encontrar bases de datos abiertas. No obstante, es posible «pre-procesar» estas BD para hacerlas accesibles y a su vez proteger los datos sensibles. Un buen ejemplo de esto es la Base de Datos Mexicana de COVID-19, resultado de la colaboración de la Secretaría de Salud y la Universidad Nacional Autonóma de México. Cuenta con 6,5 millones de individuos con 97 variables y se actualiza diariamente. Dicha BD está accesible para fines de investigación y presenta información de carácter público recopilada a través de la Dirección General de Epidemiología de la Secretaría de Salud, que es curada y divulgada por la UNAM. LA BD incluye información de pruebas, hospitalización y decesos de 5.186 unidades públicas y privadas distribuidas en los tres niveles del sistema de salud mexicano. El proceso de curación de esta BD consistió, en primer lugar, en la eliminación de toda la información sensible (especialmente datos de identidad de los individuos), por parte de un equipo de expertos de la UNAM. Luego, se realizaron distintas tareas de estandarización de los datos, que facilitaron los procesos de minería de datos y otros que la vuelven accesible con fines de investigación. La BD accesible contiene 97 campos que pueden agruparse en Información general del paciente, Síntomas, Comorbilidades, Diagnóstico y tratamiento y Resultados. Para el análisis se seleccionaron 47 variables, a partir de las cuales se pueden obtener estadísticas (se muestran ejemplos con distintos gráficos): evolución de la pandemia; número de casos por ocupación; número de casos por síntomas; recuperados y defunciones por comorbilidades; riesgo de fallecimiento por edad y comorbilidades. Modelos causales: en las técnicas tradicionales de minería de datos se obtienen asociaciones o correlaciones entre las variables que pueden ser engañosas; para evitar esto e ir más allá, es necesario aprender sobre relaciones causales, lo que se conoce como «descubrimiento causal». Se trata del co-factor (o causa común) que puede haber entre dos variables y que explicaría la correlación encontrada. En general, los humanos pensamos en términos causales (tal cosa causa tal otra), por lo que la ciencia de la causalidad procura entender este mecanismo de razonamiento causal formalmente, para emularlo luego en las computadoras. En los últimos años ha habido importantes avances en este sentido, especialmente en los modelos gráficos causales: representación del conocimiento causal e inferencia causal (poder predecir el efecto de determinadas intervenciones o imaginar escenarios alternativos). Hay tres niveles de causalidad: asociación (regularidad); intervención (predicción de efectos) y contrafactuales (imaginación, introspección). Los modelos estadísticos tradicionales sólo permiten hacer asociaciones, mientras que los modelos causales permiten la intervención y los escenarios contrafactuales. En este sentido, se destacan las redes bayesianas causales, que son modelos gráficos que representan variables causales (arcos) entre variables (nodos) e implican suposiciones más fuertes que las redes bayesianas y permiten hacer razonamientos causales. Para aprender entonces relaciones causales es preciso hacer experimentos; por ejemplo, lo que se ha hecho con las vacunas contra el COVID; pero no siempre es posible hacer estos experimentos. En cambio, es posible obtener modelos causales a partir de datos observacionales, que abundan en muchos dominios. Para ello, se debe incluir una serie de suposiciones (suficiencia causal, por ejemplo), asumir cierto tipo de distribuciones de los datos (modelos lineales gaussianos), tener un gran conocimiento previo de los datos y realizar algunas intervenciones para distinguir entre modelos equivalentes, estadísticamente hablando. Para esto último, se utiliza el cálculo de efectos causales, en el que se interviene una variable y se estima el efecto en otras. Actualmente, se está tratando de encontrar información causal en la Base de Datos Mexicana de COVID-19, de modo que pueda servir para ayudar a los investigadores. Para ello, se aplicaron diversos algoritmos de aprendizaje causal en la BD, se enfocó en la relación de ciertas variables con la mortalidad y se analizaron los datos de las tres principales olas de la pandemia en México para tratar en entender mejor el fenómeno y las diferencias entre las etapas. Se muestran algunos resultados para las ciudades de Yucatán y CDMX. Esta investigación, todavía en curso, demuestra que la BD es un buen ejemplo de lo que puede obtenerse con estas técnicas, que permitirán desarrollar sistemas inteligentes más robustos y explicables, así como generar conocimiento útil para la toma de decisiones. Para el trabajo a futuro, se continuará analizando la BD, se incluirá información sobre la genética del virus y se realizarán nuevos modelos de sujetos y de grupos específicos para poder hacer una mejor transferencia de conocimiento.
Ibero-American Science and Technology Education Consortium
Materia
Bibliotecología
Informática
Bases de datos
Datos abiertos
COVID-19
Modelos causales
Descubrimiento causal
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/136673

id SEDICI_8c7f3cc6670bff9db03236708c9df61e
oai_identifier_str oai:sedici.unlp.edu.ar:10915/136673
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Datos abiertos: gestión de datos de investigaciónSucar Succar, EnriqueBibliotecologíaInformáticaBases de datosDatos abiertosCOVID-19Modelos causalesDescubrimiento causalLas bases de datos (BD) son el «oro» de la investigación científica, por lo que es importante hacerlas accesibles a la comunidad; sin embargo, en algunos campos, como la medicina, es díficil encontrar bases de datos abiertas. No obstante, es posible «pre-procesar» estas BD para hacerlas accesibles y a su vez proteger los datos sensibles. Un buen ejemplo de esto es la Base de Datos Mexicana de COVID-19, resultado de la colaboración de la Secretaría de Salud y la Universidad Nacional Autonóma de México. Cuenta con 6,5 millones de individuos con 97 variables y se actualiza diariamente. Dicha BD está accesible para fines de investigación y presenta información de carácter público recopilada a través de la Dirección General de Epidemiología de la Secretaría de Salud, que es curada y divulgada por la UNAM. LA BD incluye información de pruebas, hospitalización y decesos de 5.186 unidades públicas y privadas distribuidas en los tres niveles del sistema de salud mexicano. El proceso de curación de esta BD consistió, en primer lugar, en la eliminación de toda la información sensible (especialmente datos de identidad de los individuos), por parte de un equipo de expertos de la UNAM. Luego, se realizaron distintas tareas de estandarización de los datos, que facilitaron los procesos de minería de datos y otros que la vuelven accesible con fines de investigación. La BD accesible contiene 97 campos que pueden agruparse en Información general del paciente, Síntomas, Comorbilidades, Diagnóstico y tratamiento y Resultados. Para el análisis se seleccionaron 47 variables, a partir de las cuales se pueden obtener estadísticas (se muestran ejemplos con distintos gráficos): evolución de la pandemia; número de casos por ocupación; número de casos por síntomas; recuperados y defunciones por comorbilidades; riesgo de fallecimiento por edad y comorbilidades. Modelos causales: en las técnicas tradicionales de minería de datos se obtienen asociaciones o correlaciones entre las variables que pueden ser engañosas; para evitar esto e ir más allá, es necesario aprender sobre relaciones causales, lo que se conoce como «descubrimiento causal». Se trata del co-factor (o causa común) que puede haber entre dos variables y que explicaría la correlación encontrada. En general, los humanos pensamos en términos causales (tal cosa causa tal otra), por lo que la ciencia de la causalidad procura entender este mecanismo de razonamiento causal formalmente, para emularlo luego en las computadoras. En los últimos años ha habido importantes avances en este sentido, especialmente en los modelos gráficos causales: representación del conocimiento causal e inferencia causal (poder predecir el efecto de determinadas intervenciones o imaginar escenarios alternativos). Hay tres niveles de causalidad: asociación (regularidad); intervención (predicción de efectos) y contrafactuales (imaginación, introspección). Los modelos estadísticos tradicionales sólo permiten hacer asociaciones, mientras que los modelos causales permiten la intervención y los escenarios contrafactuales. En este sentido, se destacan las redes bayesianas causales, que son modelos gráficos que representan variables causales (arcos) entre variables (nodos) e implican suposiciones más fuertes que las redes bayesianas y permiten hacer razonamientos causales. Para aprender entonces relaciones causales es preciso hacer experimentos; por ejemplo, lo que se ha hecho con las vacunas contra el COVID; pero no siempre es posible hacer estos experimentos. En cambio, es posible obtener modelos causales a partir de datos observacionales, que abundan en muchos dominios. Para ello, se debe incluir una serie de suposiciones (suficiencia causal, por ejemplo), asumir cierto tipo de distribuciones de los datos (modelos lineales gaussianos), tener un gran conocimiento previo de los datos y realizar algunas intervenciones para distinguir entre modelos equivalentes, estadísticamente hablando. Para esto último, se utiliza el cálculo de efectos causales, en el que se interviene una variable y se estima el efecto en otras. Actualmente, se está tratando de encontrar información causal en la Base de Datos Mexicana de COVID-19, de modo que pueda servir para ayudar a los investigadores. Para ello, se aplicaron diversos algoritmos de aprendizaje causal en la BD, se enfocó en la relación de ciertas variables con la mortalidad y se analizaron los datos de las tres principales olas de la pandemia en México para tratar en entender mejor el fenómeno y las diferencias entre las etapas. Se muestran algunos resultados para las ciudades de Yucatán y CDMX. Esta investigación, todavía en curso, demuestra que la BD es un buen ejemplo de lo que puede obtenerse con estas técnicas, que permitirán desarrollar sistemas inteligentes más robustos y explicables, así como generar conocimiento útil para la toma de decisiones. Para el trabajo a futuro, se continuará analizando la BD, se incluirá información sobre la genética del virus y se realizarán nuevos modelos de sujetos y de grupos específicos para poder hacer una mejor transferencia de conocimiento.Ibero-American Science and Technology Education Consortium2021-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf28-30http://sedici.unlp.edu.ar/handle/10915/136673spainfo:eu-repo/semantics/altIdentifier/isbn/978-950-34-2109-3info:eu-repo/semantics/reference/hdl/10915/135791info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-03T11:06:43Zoai:sedici.unlp.edu.ar:10915/136673Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-03 11:06:43.734SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Datos abiertos: gestión de datos de investigación
title Datos abiertos: gestión de datos de investigación
spellingShingle Datos abiertos: gestión de datos de investigación
Sucar Succar, Enrique
Bibliotecología
Informática
Bases de datos
Datos abiertos
COVID-19
Modelos causales
Descubrimiento causal
title_short Datos abiertos: gestión de datos de investigación
title_full Datos abiertos: gestión de datos de investigación
title_fullStr Datos abiertos: gestión de datos de investigación
title_full_unstemmed Datos abiertos: gestión de datos de investigación
title_sort Datos abiertos: gestión de datos de investigación
dc.creator.none.fl_str_mv Sucar Succar, Enrique
author Sucar Succar, Enrique
author_facet Sucar Succar, Enrique
author_role author
dc.subject.none.fl_str_mv Bibliotecología
Informática
Bases de datos
Datos abiertos
COVID-19
Modelos causales
Descubrimiento causal
topic Bibliotecología
Informática
Bases de datos
Datos abiertos
COVID-19
Modelos causales
Descubrimiento causal
dc.description.none.fl_txt_mv Las bases de datos (BD) son el «oro» de la investigación científica, por lo que es importante hacerlas accesibles a la comunidad; sin embargo, en algunos campos, como la medicina, es díficil encontrar bases de datos abiertas. No obstante, es posible «pre-procesar» estas BD para hacerlas accesibles y a su vez proteger los datos sensibles. Un buen ejemplo de esto es la Base de Datos Mexicana de COVID-19, resultado de la colaboración de la Secretaría de Salud y la Universidad Nacional Autonóma de México. Cuenta con 6,5 millones de individuos con 97 variables y se actualiza diariamente. Dicha BD está accesible para fines de investigación y presenta información de carácter público recopilada a través de la Dirección General de Epidemiología de la Secretaría de Salud, que es curada y divulgada por la UNAM. LA BD incluye información de pruebas, hospitalización y decesos de 5.186 unidades públicas y privadas distribuidas en los tres niveles del sistema de salud mexicano. El proceso de curación de esta BD consistió, en primer lugar, en la eliminación de toda la información sensible (especialmente datos de identidad de los individuos), por parte de un equipo de expertos de la UNAM. Luego, se realizaron distintas tareas de estandarización de los datos, que facilitaron los procesos de minería de datos y otros que la vuelven accesible con fines de investigación. La BD accesible contiene 97 campos que pueden agruparse en Información general del paciente, Síntomas, Comorbilidades, Diagnóstico y tratamiento y Resultados. Para el análisis se seleccionaron 47 variables, a partir de las cuales se pueden obtener estadísticas (se muestran ejemplos con distintos gráficos): evolución de la pandemia; número de casos por ocupación; número de casos por síntomas; recuperados y defunciones por comorbilidades; riesgo de fallecimiento por edad y comorbilidades. Modelos causales: en las técnicas tradicionales de minería de datos se obtienen asociaciones o correlaciones entre las variables que pueden ser engañosas; para evitar esto e ir más allá, es necesario aprender sobre relaciones causales, lo que se conoce como «descubrimiento causal». Se trata del co-factor (o causa común) que puede haber entre dos variables y que explicaría la correlación encontrada. En general, los humanos pensamos en términos causales (tal cosa causa tal otra), por lo que la ciencia de la causalidad procura entender este mecanismo de razonamiento causal formalmente, para emularlo luego en las computadoras. En los últimos años ha habido importantes avances en este sentido, especialmente en los modelos gráficos causales: representación del conocimiento causal e inferencia causal (poder predecir el efecto de determinadas intervenciones o imaginar escenarios alternativos). Hay tres niveles de causalidad: asociación (regularidad); intervención (predicción de efectos) y contrafactuales (imaginación, introspección). Los modelos estadísticos tradicionales sólo permiten hacer asociaciones, mientras que los modelos causales permiten la intervención y los escenarios contrafactuales. En este sentido, se destacan las redes bayesianas causales, que son modelos gráficos que representan variables causales (arcos) entre variables (nodos) e implican suposiciones más fuertes que las redes bayesianas y permiten hacer razonamientos causales. Para aprender entonces relaciones causales es preciso hacer experimentos; por ejemplo, lo que se ha hecho con las vacunas contra el COVID; pero no siempre es posible hacer estos experimentos. En cambio, es posible obtener modelos causales a partir de datos observacionales, que abundan en muchos dominios. Para ello, se debe incluir una serie de suposiciones (suficiencia causal, por ejemplo), asumir cierto tipo de distribuciones de los datos (modelos lineales gaussianos), tener un gran conocimiento previo de los datos y realizar algunas intervenciones para distinguir entre modelos equivalentes, estadísticamente hablando. Para esto último, se utiliza el cálculo de efectos causales, en el que se interviene una variable y se estima el efecto en otras. Actualmente, se está tratando de encontrar información causal en la Base de Datos Mexicana de COVID-19, de modo que pueda servir para ayudar a los investigadores. Para ello, se aplicaron diversos algoritmos de aprendizaje causal en la BD, se enfocó en la relación de ciertas variables con la mortalidad y se analizaron los datos de las tres principales olas de la pandemia en México para tratar en entender mejor el fenómeno y las diferencias entre las etapas. Se muestran algunos resultados para las ciudades de Yucatán y CDMX. Esta investigación, todavía en curso, demuestra que la BD es un buen ejemplo de lo que puede obtenerse con estas técnicas, que permitirán desarrollar sistemas inteligentes más robustos y explicables, así como generar conocimiento útil para la toma de decisiones. Para el trabajo a futuro, se continuará analizando la BD, se incluirá información sobre la genética del virus y se realizarán nuevos modelos de sujetos y de grupos específicos para poder hacer una mejor transferencia de conocimiento.
Ibero-American Science and Technology Education Consortium
description Las bases de datos (BD) son el «oro» de la investigación científica, por lo que es importante hacerlas accesibles a la comunidad; sin embargo, en algunos campos, como la medicina, es díficil encontrar bases de datos abiertas. No obstante, es posible «pre-procesar» estas BD para hacerlas accesibles y a su vez proteger los datos sensibles. Un buen ejemplo de esto es la Base de Datos Mexicana de COVID-19, resultado de la colaboración de la Secretaría de Salud y la Universidad Nacional Autonóma de México. Cuenta con 6,5 millones de individuos con 97 variables y se actualiza diariamente. Dicha BD está accesible para fines de investigación y presenta información de carácter público recopilada a través de la Dirección General de Epidemiología de la Secretaría de Salud, que es curada y divulgada por la UNAM. LA BD incluye información de pruebas, hospitalización y decesos de 5.186 unidades públicas y privadas distribuidas en los tres niveles del sistema de salud mexicano. El proceso de curación de esta BD consistió, en primer lugar, en la eliminación de toda la información sensible (especialmente datos de identidad de los individuos), por parte de un equipo de expertos de la UNAM. Luego, se realizaron distintas tareas de estandarización de los datos, que facilitaron los procesos de minería de datos y otros que la vuelven accesible con fines de investigación. La BD accesible contiene 97 campos que pueden agruparse en Información general del paciente, Síntomas, Comorbilidades, Diagnóstico y tratamiento y Resultados. Para el análisis se seleccionaron 47 variables, a partir de las cuales se pueden obtener estadísticas (se muestran ejemplos con distintos gráficos): evolución de la pandemia; número de casos por ocupación; número de casos por síntomas; recuperados y defunciones por comorbilidades; riesgo de fallecimiento por edad y comorbilidades. Modelos causales: en las técnicas tradicionales de minería de datos se obtienen asociaciones o correlaciones entre las variables que pueden ser engañosas; para evitar esto e ir más allá, es necesario aprender sobre relaciones causales, lo que se conoce como «descubrimiento causal». Se trata del co-factor (o causa común) que puede haber entre dos variables y que explicaría la correlación encontrada. En general, los humanos pensamos en términos causales (tal cosa causa tal otra), por lo que la ciencia de la causalidad procura entender este mecanismo de razonamiento causal formalmente, para emularlo luego en las computadoras. En los últimos años ha habido importantes avances en este sentido, especialmente en los modelos gráficos causales: representación del conocimiento causal e inferencia causal (poder predecir el efecto de determinadas intervenciones o imaginar escenarios alternativos). Hay tres niveles de causalidad: asociación (regularidad); intervención (predicción de efectos) y contrafactuales (imaginación, introspección). Los modelos estadísticos tradicionales sólo permiten hacer asociaciones, mientras que los modelos causales permiten la intervención y los escenarios contrafactuales. En este sentido, se destacan las redes bayesianas causales, que son modelos gráficos que representan variables causales (arcos) entre variables (nodos) e implican suposiciones más fuertes que las redes bayesianas y permiten hacer razonamientos causales. Para aprender entonces relaciones causales es preciso hacer experimentos; por ejemplo, lo que se ha hecho con las vacunas contra el COVID; pero no siempre es posible hacer estos experimentos. En cambio, es posible obtener modelos causales a partir de datos observacionales, que abundan en muchos dominios. Para ello, se debe incluir una serie de suposiciones (suficiencia causal, por ejemplo), asumir cierto tipo de distribuciones de los datos (modelos lineales gaussianos), tener un gran conocimiento previo de los datos y realizar algunas intervenciones para distinguir entre modelos equivalentes, estadísticamente hablando. Para esto último, se utiliza el cálculo de efectos causales, en el que se interviene una variable y se estima el efecto en otras. Actualmente, se está tratando de encontrar información causal en la Base de Datos Mexicana de COVID-19, de modo que pueda servir para ayudar a los investigadores. Para ello, se aplicaron diversos algoritmos de aprendizaje causal en la BD, se enfocó en la relación de ciertas variables con la mortalidad y se analizaron los datos de las tres principales olas de la pandemia en México para tratar en entender mejor el fenómeno y las diferencias entre las etapas. Se muestran algunos resultados para las ciudades de Yucatán y CDMX. Esta investigación, todavía en curso, demuestra que la BD es un buen ejemplo de lo que puede obtenerse con estas técnicas, que permitirán desarrollar sistemas inteligentes más robustos y explicables, así como generar conocimiento útil para la toma de decisiones. Para el trabajo a futuro, se continuará analizando la BD, se incluirá información sobre la genética del virus y se realizarán nuevos modelos de sujetos y de grupos específicos para poder hacer una mejor transferencia de conocimiento.
publishDate 2021
dc.date.none.fl_str_mv 2021-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/136673
url http://sedici.unlp.edu.ar/handle/10915/136673
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/isbn/978-950-34-2109-3
info:eu-repo/semantics/reference/hdl/10915/135791
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
28-30
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1842260567329341440
score 13.13397