Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A
- Autores
- Calamante, Lorenzo; Vila, María Marta; Villalba, Mariano Ezequiel; De Giusti, Marisa Raquel; Nusch, Carlos Javier; Villarreal, Gonzalo Luján
- Año de publicación
- 2024
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- Presentación del problema: Los repositorios institucionales realizan cosechas de grandes cantidades de contenidos dispersos en la red, es necesario que esos contenidos cumplan con estándares de preservación digital, sin dejar de lado la eficacia en el uso de los tiempos, por lo que es necesario contar con un método de normalización de lotes de archivos conforme a esos estándares. En este trabajo se presenta una herramienta para el procesamiento por lote de archivos PDF en conformidad con el estándar PDF/A. Materiales y metodología: Se desarrolló un script escrito en python llamado PlusUltraPDF. Consiste en una estructura de control que recorre un directorio padre, sus posibles subdirectorios y archivos PDF y analiza de forma recurrente sucesivos informes de conformidad con el estándar PDF/A (realizados con veraPDF). Luego se invocan dos programas de manipulación de PDF (Ghostscript y OCRmyPDF) que generan nuevos archivos PDF/A-2b derivados de los PDF originales. Resultados: La evaluación de PlusUltraPDF dió buenos resultados: procesó el 97,9% de los archivos y generó un PDF/A-2b válido en el 94,5% de los casos, en comparación con otro script desarrollado en el repositorio que implementa 3-Heights (con mejores posibilidades de conversión), resulta un buen complemento.
Ibero-American Science and Technology Education Consortium
Dirección PREBI-SEDICI - Materia
-
Ciencias Informáticas
Preservación digital
procesamiento por lotes
estándar PDF/A
Digital preservation
Batch processing
PDF/A standard - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by/4.0/
- Repositorio
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/180659
Ver los metadatos del registro completo
id |
SEDICI_d7695e548be3926821118193dfb7b187 |
---|---|
oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/180659 |
network_acronym_str |
SEDICI |
repository_id_str |
1329 |
network_name_str |
SEDICI (UNLP) |
spelling |
Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/ACalamante, LorenzoVila, María MartaVillalba, Mariano EzequielDe Giusti, Marisa RaquelNusch, Carlos JavierVillarreal, Gonzalo LujánCiencias InformáticasPreservación digitalprocesamiento por lotesestándar PDF/ADigital preservationBatch processingPDF/A standardPresentación del problema: Los repositorios institucionales realizan cosechas de grandes cantidades de contenidos dispersos en la red, es necesario que esos contenidos cumplan con estándares de preservación digital, sin dejar de lado la eficacia en el uso de los tiempos, por lo que es necesario contar con un método de normalización de lotes de archivos conforme a esos estándares. En este trabajo se presenta una herramienta para el procesamiento por lote de archivos PDF en conformidad con el estándar PDF/A. Materiales y metodología: Se desarrolló un script escrito en python llamado PlusUltraPDF. Consiste en una estructura de control que recorre un directorio padre, sus posibles subdirectorios y archivos PDF y analiza de forma recurrente sucesivos informes de conformidad con el estándar PDF/A (realizados con veraPDF). Luego se invocan dos programas de manipulación de PDF (Ghostscript y OCRmyPDF) que generan nuevos archivos PDF/A-2b derivados de los PDF originales. Resultados: La evaluación de PlusUltraPDF dió buenos resultados: procesó el 97,9% de los archivos y generó un PDF/A-2b válido en el 94,5% de los casos, en comparación con otro script desarrollado en el repositorio que implementa 3-Heights (con mejores posibilidades de conversión), resulta un buen complemento.Ibero-American Science and Technology Education ConsortiumDirección PREBI-SEDICI2024-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf188-202http://sedici.unlp.edu.ar/handle/10915/180659spainfo:eu-repo/semantics/altIdentifier/isbn/978-9968-08-017-0info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/4.0/Creative Commons Attribution 4.0 International (CC BY 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:49:18Zoai:sedici.unlp.edu.ar:10915/180659Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:49:18.291SEDICI (UNLP) - Universidad Nacional de La Platafalse |
dc.title.none.fl_str_mv |
Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A |
title |
Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A |
spellingShingle |
Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A Calamante, Lorenzo Ciencias Informáticas Preservación digital procesamiento por lotes estándar PDF/A Digital preservation Batch processing PDF/A standard |
title_short |
Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A |
title_full |
Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A |
title_fullStr |
Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A |
title_full_unstemmed |
Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A |
title_sort |
Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A |
dc.creator.none.fl_str_mv |
Calamante, Lorenzo Vila, María Marta Villalba, Mariano Ezequiel De Giusti, Marisa Raquel Nusch, Carlos Javier Villarreal, Gonzalo Luján |
author |
Calamante, Lorenzo |
author_facet |
Calamante, Lorenzo Vila, María Marta Villalba, Mariano Ezequiel De Giusti, Marisa Raquel Nusch, Carlos Javier Villarreal, Gonzalo Luján |
author_role |
author |
author2 |
Vila, María Marta Villalba, Mariano Ezequiel De Giusti, Marisa Raquel Nusch, Carlos Javier Villarreal, Gonzalo Luján |
author2_role |
author author author author author |
dc.subject.none.fl_str_mv |
Ciencias Informáticas Preservación digital procesamiento por lotes estándar PDF/A Digital preservation Batch processing PDF/A standard |
topic |
Ciencias Informáticas Preservación digital procesamiento por lotes estándar PDF/A Digital preservation Batch processing PDF/A standard |
dc.description.none.fl_txt_mv |
Presentación del problema: Los repositorios institucionales realizan cosechas de grandes cantidades de contenidos dispersos en la red, es necesario que esos contenidos cumplan con estándares de preservación digital, sin dejar de lado la eficacia en el uso de los tiempos, por lo que es necesario contar con un método de normalización de lotes de archivos conforme a esos estándares. En este trabajo se presenta una herramienta para el procesamiento por lote de archivos PDF en conformidad con el estándar PDF/A. Materiales y metodología: Se desarrolló un script escrito en python llamado PlusUltraPDF. Consiste en una estructura de control que recorre un directorio padre, sus posibles subdirectorios y archivos PDF y analiza de forma recurrente sucesivos informes de conformidad con el estándar PDF/A (realizados con veraPDF). Luego se invocan dos programas de manipulación de PDF (Ghostscript y OCRmyPDF) que generan nuevos archivos PDF/A-2b derivados de los PDF originales. Resultados: La evaluación de PlusUltraPDF dió buenos resultados: procesó el 97,9% de los archivos y generó un PDF/A-2b válido en el 94,5% de los casos, en comparación con otro script desarrollado en el repositorio que implementa 3-Heights (con mejores posibilidades de conversión), resulta un buen complemento. Ibero-American Science and Technology Education Consortium Dirección PREBI-SEDICI |
description |
Presentación del problema: Los repositorios institucionales realizan cosechas de grandes cantidades de contenidos dispersos en la red, es necesario que esos contenidos cumplan con estándares de preservación digital, sin dejar de lado la eficacia en el uso de los tiempos, por lo que es necesario contar con un método de normalización de lotes de archivos conforme a esos estándares. En este trabajo se presenta una herramienta para el procesamiento por lote de archivos PDF en conformidad con el estándar PDF/A. Materiales y metodología: Se desarrolló un script escrito en python llamado PlusUltraPDF. Consiste en una estructura de control que recorre un directorio padre, sus posibles subdirectorios y archivos PDF y analiza de forma recurrente sucesivos informes de conformidad con el estándar PDF/A (realizados con veraPDF). Luego se invocan dos programas de manipulación de PDF (Ghostscript y OCRmyPDF) que generan nuevos archivos PDF/A-2b derivados de los PDF originales. Resultados: La evaluación de PlusUltraPDF dió buenos resultados: procesó el 97,9% de los archivos y generó un PDF/A-2b válido en el 94,5% de los casos, en comparación con otro script desarrollado en el repositorio que implementa 3-Heights (con mejores posibilidades de conversión), resulta un buen complemento. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-10 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
format |
conferenceObject |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/180659 |
url |
http://sedici.unlp.edu.ar/handle/10915/180659 |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/isbn/978-9968-08-017-0 |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by/4.0/ Creative Commons Attribution 4.0 International (CC BY 4.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by/4.0/ Creative Commons Attribution 4.0 International (CC BY 4.0) |
dc.format.none.fl_str_mv |
application/pdf 188-202 |
dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
reponame_str |
SEDICI (UNLP) |
collection |
SEDICI (UNLP) |
instname_str |
Universidad Nacional de La Plata |
instacron_str |
UNLP |
institution |
UNLP |
repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
_version_ |
1844616353918484480 |
score |
13.070432 |