Control de integridad y calidad en repositorios DSpace

Autores: De Giusti, Marisa Raquel; Oviedo, Néstor; Lira, Ariel Jorge; Villarreal, Gonzalo Luján
Año de publicación: 2013
Idioma: español castellano
Tipo de recurso: documento de conferencia
Estado: versión publicada
Descripción: Este trabajo describe 2 vías de extensión sobre el módulo de curation de Dspace. En primer lugar se describe un conjunto de curation tasks orientadas a analizar y reportar distintos aspectos asociados a la calidad de los datos y a brindar un soporte adicional a las tareas de preservación sobre el repositorio por medio de chequeos de integridad y de generación de nuevos metadatos. En segundo lugar se plantea la modificación de la estrategia de ejecución de curation tasks provisto por DSpace, en pos de minimizar su impacto en la performance de la aplicación, y flexibilizar los criterios de selección de recursos a procesar.\nA continuación se mencionan curation tasks que serán consideradas en este trabajo:\n● chequeo de enlaces web a documentos alojados en servidores externos al repositorio, configurable; \n● chequeo de metadatos conectados con autoridades (o vocabularios controlados) dentro o fuera del repositorio, para chequeo de integridad en los datos; \n● chequeo de archivos cargados en el repositorio, asegurando que todos los recursos cuenten con un archivo asociado bajo las normas y políticas del repositorio; \n● control de metadatos obligatorios, según el tipo de documento; \n● control del dominio de metadatos, de acuerdo a tipos primitivos como ser fecha, número, texto, etc; \n● generación de metadatos de preservación a partir de los archivos asociados a los recursos (ej.: software con el que se realizó el archivo, con su correspondiente versión, versión del formato, nivel de compresión utilizado, etc); \n● testeo y posterior reporte de recursos a partir de condiciones lógicas sobre metadatos y archivos, utilizando un lenguaje de expresión simple.\nActualmente las curation tasks se ejecutan sobre todos los ítems de una colección, una comunidad o incluso el repositorio completo, sin interrupciones y de manera secuencial. Esta estrategia de selección y ejecución genera una elevada demanda de recursos sobre el servidor que aloja el repositorio durante todo el tiempo de ejecución de los procesos de curation tasks, degradando la performance del mismo. Además, cuando se incluye más de una tarea en una misma orden de ejecución, éstas se ejecutan de forma secuencial, es decir, una tarea no puede iniciar su ejecución hasta tanto la tarea anterior no haya finalizado completamente. De aquí que en este trabajo se propone una nueva estrategia para la selección de los recursos a procesar y dos nuevas estrategias de ejecución de curation tasks:\n● estrategia de selección de recursos a procesar en base a una expresión lógica configurable (ej.: seleccionar recursos según el valor de su metadato dc.type); \n● estrategia de ejecución por lotes incrementales en pos de disminuir el impacto de la ejecución de las curation tasks sobre el sistema; \n● cambio en la forma de ejecución secuencial a fin de obtener un avance uniforme a nivel de recursos en el procesamiento, en lugar de un avance a nivel de curation tasks.\nHacia el final de este trabajo se mencionan otras posibles curation tasks, haciendo especial hincapié en las dificultades de implementación y la utilidad de las mismas en lo que respecta a la calidad de los metadatos y archivos, y a la preservación de los recursos. Entre estas tareas se pueden destacar un mecanismo de diagnóstico de archivos plausibles de ser o no preservados, un proceso de detección de recursos duplicados, una tarea de inferencia de relaciones entre recursos, de extracción de bibliografía a partir del texto completo, entre otras.
Materia: Ciencias de la Computación e Información
Bibliotecología
preservación
repositorios digitales
curation task
DSpace
Nivel de accesibilidad: acceso abierto
Condiciones de uso: http://creativecommons.org/licenses/by/4.0/
Repositorio
Institución: Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
OAI Identificador: oai:digital.cic.gba.gob.ar:11746/3545

Acceder

id	CICBA_c8d9b182fe3e9cad8d411053dfb53ef6
oai_identifier_str	oai:digital.cic.gba.gob.ar:11746/3545
network_acronym_str	CICBA
repository_id_str	9441
network_name_str	CIC Digital (CICBA)
spelling	Control de integridad y calidad en repositorios DSpaceDe Giusti, Marisa RaquelOviedo, NéstorLira, Ariel JorgeVillarreal, Gonzalo LujánCiencias de la Computación e InformaciónBibliotecologíapreservaciónrepositorios digitalescuration taskDSpaceEste trabajo describe 2 vías de extensión sobre el módulo de curation de Dspace. En primer lugar se describe un conjunto de curation tasks orientadas a analizar y reportar distintos aspectos asociados a la calidad de los datos y a brindar un soporte adicional a las tareas de preservación sobre el repositorio por medio de chequeos de integridad y de generación de nuevos metadatos. En segundo lugar se plantea la modificación de la estrategia de ejecución de curation tasks provisto por DSpace, en pos de minimizar su impacto en la performance de la aplicación, y flexibilizar los criterios de selección de recursos a procesar.\nA continuación se mencionan curation tasks que serán consideradas en este trabajo:\n● chequeo de enlaces web a documentos alojados en servidores externos al repositorio, configurable; \n● chequeo de metadatos conectados con autoridades (o vocabularios controlados) dentro o fuera del repositorio, para chequeo de integridad en los datos; \n● chequeo de archivos cargados en el repositorio, asegurando que todos los recursos cuenten con un archivo asociado bajo las normas y políticas del repositorio; \n● control de metadatos obligatorios, según el tipo de documento; \n● control del dominio de metadatos, de acuerdo a tipos primitivos como ser fecha, número, texto, etc; \n● generación de metadatos de preservación a partir de los archivos asociados a los recursos (ej.: software con el que se realizó el archivo, con su correspondiente versión, versión del formato, nivel de compresión utilizado, etc); \n● testeo y posterior reporte de recursos a partir de condiciones lógicas sobre metadatos y archivos, utilizando un lenguaje de expresión simple.\nActualmente las curation tasks se ejecutan sobre todos los ítems de una colección, una comunidad o incluso el repositorio completo, sin interrupciones y de manera secuencial. Esta estrategia de selección y ejecución genera una elevada demanda de recursos sobre el servidor que aloja el repositorio durante todo el tiempo de ejecución de los procesos de curation tasks, degradando la performance del mismo. Además, cuando se incluye más de una tarea en una misma orden de ejecución, éstas se ejecutan de forma secuencial, es decir, una tarea no puede iniciar su ejecución hasta tanto la tarea anterior no haya finalizado completamente. De aquí que en este trabajo se propone una nueva estrategia para la selección de los recursos a procesar y dos nuevas estrategias de ejecución de curation tasks:\n● estrategia de selección de recursos a procesar en base a una expresión lógica configurable (ej.: seleccionar recursos según el valor de su metadato dc.type); \n● estrategia de ejecución por lotes incrementales en pos de disminuir el impacto de la ejecución de las curation tasks sobre el sistema; \n● cambio en la forma de ejecución secuencial a fin de obtener un avance uniforme a nivel de recursos en el procesamiento, en lugar de un avance a nivel de curation tasks.\nHacia el final de este trabajo se mencionan otras posibles curation tasks, haciendo especial hincapié en las dificultades de implementación y la utilidad de las mismas en lo que respecta a la calidad de los metadatos y archivos, y a la preservación de los recursos. Entre estas tareas se pueden destacar un mecanismo de diagnóstico de archivos plausibles de ser o no preservados, un proceso de detección de recursos duplicados, una tarea de inferencia de relaciones entre recursos, de extracción de bibliografía a partir del texto completo, entre otras.2013-10-17info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfapplication/pdfhttps://digital.cic.gba.gob.ar/handle/11746/3545spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/4.0/reponame:CIC Digital (CICBA)instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Airesinstacron:CICBA2026-05-28T08:42:24Zoai:digital.cic.gba.gob.ar:11746/3545Institucionalhttp://digital.cic.gba.gob.arOrganismo científico-tecnológicoNo correspondehttp://digital.cic.gba.gob.ar/oai/snrdmarisa.degiusti@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:94412026-05-28 08:42:24.819CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Airesfalse
dc.title.none.fl_str_mv	Control de integridad y calidad en repositorios DSpace
title	Control de integridad y calidad en repositorios DSpace
spellingShingle	Control de integridad y calidad en repositorios DSpace De Giusti, Marisa Raquel Ciencias de la Computación e Información Bibliotecología preservación repositorios digitales curation task DSpace
title_short	Control de integridad y calidad en repositorios DSpace
title_full	Control de integridad y calidad en repositorios DSpace
title_fullStr	Control de integridad y calidad en repositorios DSpace
title_full_unstemmed	Control de integridad y calidad en repositorios DSpace
title_sort	Control de integridad y calidad en repositorios DSpace
dc.creator.none.fl_str_mv	De Giusti, Marisa Raquel Oviedo, Néstor Lira, Ariel Jorge Villarreal, Gonzalo Luján
author	De Giusti, Marisa Raquel
author_facet	De Giusti, Marisa Raquel Oviedo, Néstor Lira, Ariel Jorge Villarreal, Gonzalo Luján
author_role	author
author2	Oviedo, Néstor Lira, Ariel Jorge Villarreal, Gonzalo Luján
author2_role	author author author
dc.subject.none.fl_str_mv	Ciencias de la Computación e Información Bibliotecología preservación repositorios digitales curation task DSpace
topic	Ciencias de la Computación e Información Bibliotecología preservación repositorios digitales curation task DSpace
dc.description.none.fl_txt_mv	Este trabajo describe 2 vías de extensión sobre el módulo de curation de Dspace. En primer lugar se describe un conjunto de curation tasks orientadas a analizar y reportar distintos aspectos asociados a la calidad de los datos y a brindar un soporte adicional a las tareas de preservación sobre el repositorio por medio de chequeos de integridad y de generación de nuevos metadatos. En segundo lugar se plantea la modificación de la estrategia de ejecución de curation tasks provisto por DSpace, en pos de minimizar su impacto en la performance de la aplicación, y flexibilizar los criterios de selección de recursos a procesar.\nA continuación se mencionan curation tasks que serán consideradas en este trabajo:\n● chequeo de enlaces web a documentos alojados en servidores externos al repositorio, configurable; \n● chequeo de metadatos conectados con autoridades (o vocabularios controlados) dentro o fuera del repositorio, para chequeo de integridad en los datos; \n● chequeo de archivos cargados en el repositorio, asegurando que todos los recursos cuenten con un archivo asociado bajo las normas y políticas del repositorio; \n● control de metadatos obligatorios, según el tipo de documento; \n● control del dominio de metadatos, de acuerdo a tipos primitivos como ser fecha, número, texto, etc; \n● generación de metadatos de preservación a partir de los archivos asociados a los recursos (ej.: software con el que se realizó el archivo, con su correspondiente versión, versión del formato, nivel de compresión utilizado, etc); \n● testeo y posterior reporte de recursos a partir de condiciones lógicas sobre metadatos y archivos, utilizando un lenguaje de expresión simple.\nActualmente las curation tasks se ejecutan sobre todos los ítems de una colección, una comunidad o incluso el repositorio completo, sin interrupciones y de manera secuencial. Esta estrategia de selección y ejecución genera una elevada demanda de recursos sobre el servidor que aloja el repositorio durante todo el tiempo de ejecución de los procesos de curation tasks, degradando la performance del mismo. Además, cuando se incluye más de una tarea en una misma orden de ejecución, éstas se ejecutan de forma secuencial, es decir, una tarea no puede iniciar su ejecución hasta tanto la tarea anterior no haya finalizado completamente. De aquí que en este trabajo se propone una nueva estrategia para la selección de los recursos a procesar y dos nuevas estrategias de ejecución de curation tasks:\n● estrategia de selección de recursos a procesar en base a una expresión lógica configurable (ej.: seleccionar recursos según el valor de su metadato dc.type); \n● estrategia de ejecución por lotes incrementales en pos de disminuir el impacto de la ejecución de las curation tasks sobre el sistema; \n● cambio en la forma de ejecución secuencial a fin de obtener un avance uniforme a nivel de recursos en el procesamiento, en lugar de un avance a nivel de curation tasks.\nHacia el final de este trabajo se mencionan otras posibles curation tasks, haciendo especial hincapié en las dificultades de implementación y la utilidad de las mismas en lo que respecta a la calidad de los metadatos y archivos, y a la preservación de los recursos. Entre estas tareas se pueden destacar un mecanismo de diagnóstico de archivos plausibles de ser o no preservados, un proceso de detección de recursos duplicados, una tarea de inferencia de relaciones entre recursos, de extracción de bibliografía a partir del texto completo, entre otras.
description	Este trabajo describe 2 vías de extensión sobre el módulo de curation de Dspace. En primer lugar se describe un conjunto de curation tasks orientadas a analizar y reportar distintos aspectos asociados a la calidad de los datos y a brindar un soporte adicional a las tareas de preservación sobre el repositorio por medio de chequeos de integridad y de generación de nuevos metadatos. En segundo lugar se plantea la modificación de la estrategia de ejecución de curation tasks provisto por DSpace, en pos de minimizar su impacto en la performance de la aplicación, y flexibilizar los criterios de selección de recursos a procesar.\nA continuación se mencionan curation tasks que serán consideradas en este trabajo:\n● chequeo de enlaces web a documentos alojados en servidores externos al repositorio, configurable; \n● chequeo de metadatos conectados con autoridades (o vocabularios controlados) dentro o fuera del repositorio, para chequeo de integridad en los datos; \n● chequeo de archivos cargados en el repositorio, asegurando que todos los recursos cuenten con un archivo asociado bajo las normas y políticas del repositorio; \n● control de metadatos obligatorios, según el tipo de documento; \n● control del dominio de metadatos, de acuerdo a tipos primitivos como ser fecha, número, texto, etc; \n● generación de metadatos de preservación a partir de los archivos asociados a los recursos (ej.: software con el que se realizó el archivo, con su correspondiente versión, versión del formato, nivel de compresión utilizado, etc); \n● testeo y posterior reporte de recursos a partir de condiciones lógicas sobre metadatos y archivos, utilizando un lenguaje de expresión simple.\nActualmente las curation tasks se ejecutan sobre todos los ítems de una colección, una comunidad o incluso el repositorio completo, sin interrupciones y de manera secuencial. Esta estrategia de selección y ejecución genera una elevada demanda de recursos sobre el servidor que aloja el repositorio durante todo el tiempo de ejecución de los procesos de curation tasks, degradando la performance del mismo. Además, cuando se incluye más de una tarea en una misma orden de ejecución, éstas se ejecutan de forma secuencial, es decir, una tarea no puede iniciar su ejecución hasta tanto la tarea anterior no haya finalizado completamente. De aquí que en este trabajo se propone una nueva estrategia para la selección de los recursos a procesar y dos nuevas estrategias de ejecución de curation tasks:\n● estrategia de selección de recursos a procesar en base a una expresión lógica configurable (ej.: seleccionar recursos según el valor de su metadato dc.type); \n● estrategia de ejecución por lotes incrementales en pos de disminuir el impacto de la ejecución de las curation tasks sobre el sistema; \n● cambio en la forma de ejecución secuencial a fin de obtener un avance uniforme a nivel de recursos en el procesamiento, en lugar de un avance a nivel de curation tasks.\nHacia el final de este trabajo se mencionan otras posibles curation tasks, haciendo especial hincapié en las dificultades de implementación y la utilidad de las mismas en lo que respecta a la calidad de los metadatos y archivos, y a la preservación de los recursos. Entre estas tareas se pueden destacar un mecanismo de diagnóstico de archivos plausibles de ser o no preservados, un proceso de detección de recursos duplicados, una tarea de inferencia de relaciones entre recursos, de extracción de bibliografía a partir del texto completo, entre otras.
publishDate	2013
dc.date.none.fl_str_mv	2013-10-17
dc.type.none.fl_str_mv	info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia
format	conferenceObject
status_str	publishedVersion
dc.identifier.none.fl_str_mv	https://digital.cic.gba.gob.ar/handle/11746/3545
url	https://digital.cic.gba.gob.ar/handle/11746/3545
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by/4.0/
dc.format.none.fl_str_mv	application/pdf application/pdf
dc.source.none.fl_str_mv	reponame:CIC Digital (CICBA) instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Aires instacron:CICBA
reponame_str	CIC Digital (CICBA)
collection	CIC Digital (CICBA)
instname_str	Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
instacron_str	CICBA
institution	CICBA
repository.name.fl_str_mv	CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
repository.mail.fl_str_mv	marisa.degiusti@sedici.unlp.edu.ar
_version_	1866437156379033600
score	13.143419

Control de integridad y calidad en repositorios DSpace

Publicaciones similares