Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A

Autores
Calamante, Lorenzo; Vila, María Marta; Villalba, Mariano Ezequiel; De Giusti, Marisa Raquel; Nusch, Carlos Javier; Villarreal, Gonzalo Luján
Año de publicación
2024
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Presentación del problema: Los repositorios institucionales realizan cosechas de grandes cantidades de contenidos dispersos en la red, es necesario que esos contenidos cumplan con estándares de preservación digital, sin dejar de lado la eficacia en el uso de los tiempos, por lo que es necesario contar con un método de normalización de lotes de archivos conforme a esos estándares. En este trabajo se presenta una herramienta para el procesamiento por lote de archivos PDF en conformidad con el estándar PDF/A. Materiales y metodología: Se desarrolló un script escrito en python llamado PlusUltraPDF. Consiste en una estructura de control que recorre un directorio padre, sus posibles subdirectorios y archivos PDF y analiza de forma recurrente sucesivos informes de conformidad con el estándar PDF/A (realizados con veraPDF). Luego se invocan dos programas de manipulación de PDF (Ghostscript y OCRmyPDF) que generan nuevos archivos PDF/A-2b derivados de los PDF originales. Resultados: La evaluación de PlusUltraPDF dió buenos resultados: procesó el 97,9% de los archivos y generó un PDF/A-2b válido en el 94,5% de los casos, en comparación con otro script desarrollado en el repositorio que implementa 3-Heights (con mejores posibilidades de conversión), resulta un buen complemento.
Ibero-American Science and Technology Education Consortium
Dirección PREBI-SEDICI
Materia
Ciencias Informáticas
Preservación digital
procesamiento por lotes
estándar PDF/A
Digital preservation
Batch processing
PDF/A standard
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/180659

id SEDICI_d7695e548be3926821118193dfb7b187
oai_identifier_str oai:sedici.unlp.edu.ar:10915/180659
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/ACalamante, LorenzoVila, María MartaVillalba, Mariano EzequielDe Giusti, Marisa RaquelNusch, Carlos JavierVillarreal, Gonzalo LujánCiencias InformáticasPreservación digitalprocesamiento por lotesestándar PDF/ADigital preservationBatch processingPDF/A standardPresentación del problema: Los repositorios institucionales realizan cosechas de grandes cantidades de contenidos dispersos en la red, es necesario que esos contenidos cumplan con estándares de preservación digital, sin dejar de lado la eficacia en el uso de los tiempos, por lo que es necesario contar con un método de normalización de lotes de archivos conforme a esos estándares. En este trabajo se presenta una herramienta para el procesamiento por lote de archivos PDF en conformidad con el estándar PDF/A. Materiales y metodología: Se desarrolló un script escrito en python llamado PlusUltraPDF. Consiste en una estructura de control que recorre un directorio padre, sus posibles subdirectorios y archivos PDF y analiza de forma recurrente sucesivos informes de conformidad con el estándar PDF/A (realizados con veraPDF). Luego se invocan dos programas de manipulación de PDF (Ghostscript y OCRmyPDF) que generan nuevos archivos PDF/A-2b derivados de los PDF originales. Resultados: La evaluación de PlusUltraPDF dió buenos resultados: procesó el 97,9% de los archivos y generó un PDF/A-2b válido en el 94,5% de los casos, en comparación con otro script desarrollado en el repositorio que implementa 3-Heights (con mejores posibilidades de conversión), resulta un buen complemento.Ibero-American Science and Technology Education ConsortiumDirección PREBI-SEDICI2024-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf188-202http://sedici.unlp.edu.ar/handle/10915/180659spainfo:eu-repo/semantics/altIdentifier/isbn/978-9968-08-017-0info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/4.0/Creative Commons Attribution 4.0 International (CC BY 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:49:18Zoai:sedici.unlp.edu.ar:10915/180659Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:49:18.291SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A
title Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A
spellingShingle Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A
Calamante, Lorenzo
Ciencias Informáticas
Preservación digital
procesamiento por lotes
estándar PDF/A
Digital preservation
Batch processing
PDF/A standard
title_short Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A
title_full Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A
title_fullStr Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A
title_full_unstemmed Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A
title_sort Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A
dc.creator.none.fl_str_mv Calamante, Lorenzo
Vila, María Marta
Villalba, Mariano Ezequiel
De Giusti, Marisa Raquel
Nusch, Carlos Javier
Villarreal, Gonzalo Luján
author Calamante, Lorenzo
author_facet Calamante, Lorenzo
Vila, María Marta
Villalba, Mariano Ezequiel
De Giusti, Marisa Raquel
Nusch, Carlos Javier
Villarreal, Gonzalo Luján
author_role author
author2 Vila, María Marta
Villalba, Mariano Ezequiel
De Giusti, Marisa Raquel
Nusch, Carlos Javier
Villarreal, Gonzalo Luján
author2_role author
author
author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Preservación digital
procesamiento por lotes
estándar PDF/A
Digital preservation
Batch processing
PDF/A standard
topic Ciencias Informáticas
Preservación digital
procesamiento por lotes
estándar PDF/A
Digital preservation
Batch processing
PDF/A standard
dc.description.none.fl_txt_mv Presentación del problema: Los repositorios institucionales realizan cosechas de grandes cantidades de contenidos dispersos en la red, es necesario que esos contenidos cumplan con estándares de preservación digital, sin dejar de lado la eficacia en el uso de los tiempos, por lo que es necesario contar con un método de normalización de lotes de archivos conforme a esos estándares. En este trabajo se presenta una herramienta para el procesamiento por lote de archivos PDF en conformidad con el estándar PDF/A. Materiales y metodología: Se desarrolló un script escrito en python llamado PlusUltraPDF. Consiste en una estructura de control que recorre un directorio padre, sus posibles subdirectorios y archivos PDF y analiza de forma recurrente sucesivos informes de conformidad con el estándar PDF/A (realizados con veraPDF). Luego se invocan dos programas de manipulación de PDF (Ghostscript y OCRmyPDF) que generan nuevos archivos PDF/A-2b derivados de los PDF originales. Resultados: La evaluación de PlusUltraPDF dió buenos resultados: procesó el 97,9% de los archivos y generó un PDF/A-2b válido en el 94,5% de los casos, en comparación con otro script desarrollado en el repositorio que implementa 3-Heights (con mejores posibilidades de conversión), resulta un buen complemento.
Ibero-American Science and Technology Education Consortium
Dirección PREBI-SEDICI
description Presentación del problema: Los repositorios institucionales realizan cosechas de grandes cantidades de contenidos dispersos en la red, es necesario que esos contenidos cumplan con estándares de preservación digital, sin dejar de lado la eficacia en el uso de los tiempos, por lo que es necesario contar con un método de normalización de lotes de archivos conforme a esos estándares. En este trabajo se presenta una herramienta para el procesamiento por lote de archivos PDF en conformidad con el estándar PDF/A. Materiales y metodología: Se desarrolló un script escrito en python llamado PlusUltraPDF. Consiste en una estructura de control que recorre un directorio padre, sus posibles subdirectorios y archivos PDF y analiza de forma recurrente sucesivos informes de conformidad con el estándar PDF/A (realizados con veraPDF). Luego se invocan dos programas de manipulación de PDF (Ghostscript y OCRmyPDF) que generan nuevos archivos PDF/A-2b derivados de los PDF originales. Resultados: La evaluación de PlusUltraPDF dió buenos resultados: procesó el 97,9% de los archivos y generó un PDF/A-2b válido en el 94,5% de los casos, en comparación con otro script desarrollado en el repositorio que implementa 3-Heights (con mejores posibilidades de conversión), resulta un buen complemento.
publishDate 2024
dc.date.none.fl_str_mv 2024-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/180659
url http://sedici.unlp.edu.ar/handle/10915/180659
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/isbn/978-9968-08-017-0
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by/4.0/
Creative Commons Attribution 4.0 International (CC BY 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
Creative Commons Attribution 4.0 International (CC BY 4.0)
dc.format.none.fl_str_mv application/pdf
188-202
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844616353918484480
score 13.070432