A web platform for collaborative semi-automatic OCR Post-processing
- Autores
- Mechaca, Ana Lidia; Marmanillo, Walter Gabriel; Xamena, Eduardo; Ramirez Orta, Juan; Maguitman, Ana Gabriela; Milios, Evangelos E.
- Año de publicación
- 2021
- Idioma
- inglés
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- Digital Humanities researchers often make use of software that helps them in the task of finding non-trivial relationships among characters in historical text. Usually, the source texts that contain such information come from OCR acquired volumes, carrying high amounts of errors within them. This work explains the development of a web platform for the task of OCR post-processing and ground-truth generation. This platform employs machine learning to predict the correct texts accurately from OCR noisy strings. The method used for this task involves transformers for character-based denoising language models. An active learning workflow is proposed, as the users can feed their corrections to the platform, generating new annotated data for re-training the underlying machine learning correction models.
Fil: Mechaca, Ana Lidia. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
Fil: Marmanillo, Walter Gabriel. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
Fil: Xamena, Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Investigaciones en Ciencias Sociales y Humanidades. Universidad Nacional de Salta. Facultad de Humanidades. Instituto de Investigaciones en Ciencias Sociales y Humanidades; Argentina. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
Fil: Ramirez Orta, Juan. Dalhousie University Halifax; Canadá
Fil: Maguitman, Ana Gabriela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina
Fil: Milios, Evangelos E.. Dalhousie University Halifax; Canadá
50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos
Ciudad Autónoma de Buenos Aires
Argentina
Sociedad Argentina de Investigación Operativa
Instituto Nacional de Tecnología Agropecuaria - Materia
-
OCR POST-PROCESSING
DIGITAL HUMANITIES
LANGUAGE MODELS - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
- Repositorio
- Institución
- Consejo Nacional de Investigaciones Científicas y Técnicas
- OAI Identificador
- oai:ri.conicet.gov.ar:11336/173940
Ver los metadatos del registro completo
id |
CONICETDig_e332afce96b45ba49e74292ae84dd116 |
---|---|
oai_identifier_str |
oai:ri.conicet.gov.ar:11336/173940 |
network_acronym_str |
CONICETDig |
repository_id_str |
3498 |
network_name_str |
CONICET Digital (CONICET) |
spelling |
A web platform for collaborative semi-automatic OCR Post-processingMechaca, Ana LidiaMarmanillo, Walter GabrielXamena, EduardoRamirez Orta, JuanMaguitman, Ana GabrielaMilios, Evangelos E.OCR POST-PROCESSINGDIGITAL HUMANITIESLANGUAGE MODELShttps://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1Digital Humanities researchers often make use of software that helps them in the task of finding non-trivial relationships among characters in historical text. Usually, the source texts that contain such information come from OCR acquired volumes, carrying high amounts of errors within them. This work explains the development of a web platform for the task of OCR post-processing and ground-truth generation. This platform employs machine learning to predict the correct texts accurately from OCR noisy strings. The method used for this task involves transformers for character-based denoising language models. An active learning workflow is proposed, as the users can feed their corrections to the platform, generating new annotated data for re-training the underlying machine learning correction models.Fil: Mechaca, Ana Lidia. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; ArgentinaFil: Marmanillo, Walter Gabriel. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; ArgentinaFil: Xamena, Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Investigaciones en Ciencias Sociales y Humanidades. Universidad Nacional de Salta. Facultad de Humanidades. Instituto de Investigaciones en Ciencias Sociales y Humanidades; Argentina. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; ArgentinaFil: Ramirez Orta, Juan. Dalhousie University Halifax; CanadáFil: Maguitman, Ana Gabriela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; ArgentinaFil: Milios, Evangelos E.. Dalhousie University Halifax; Canadá50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes DatosCiudad Autónoma de Buenos AiresArgentinaSociedad Argentina de Investigación OperativaInstituto Nacional de Tecnología AgropecuariaSociedad Argentina de Investigación Operativa2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/conferenceObjectJornadaJournalhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/173940A web platform for collaborative semi-automatic OCR Post-processing; 50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos; Ciudad Autónoma de Buenos Aires; Argentina; 2021; 11-142683-8966CONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/url/https://50jaiio.sadio.org.ar/pdfs/agranda/AGRANDA-02.pdfNacionalinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T09:48:53Zoai:ri.conicet.gov.ar:11336/173940instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 09:48:53.562CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse |
dc.title.none.fl_str_mv |
A web platform for collaborative semi-automatic OCR Post-processing |
title |
A web platform for collaborative semi-automatic OCR Post-processing |
spellingShingle |
A web platform for collaborative semi-automatic OCR Post-processing Mechaca, Ana Lidia OCR POST-PROCESSING DIGITAL HUMANITIES LANGUAGE MODELS |
title_short |
A web platform for collaborative semi-automatic OCR Post-processing |
title_full |
A web platform for collaborative semi-automatic OCR Post-processing |
title_fullStr |
A web platform for collaborative semi-automatic OCR Post-processing |
title_full_unstemmed |
A web platform for collaborative semi-automatic OCR Post-processing |
title_sort |
A web platform for collaborative semi-automatic OCR Post-processing |
dc.creator.none.fl_str_mv |
Mechaca, Ana Lidia Marmanillo, Walter Gabriel Xamena, Eduardo Ramirez Orta, Juan Maguitman, Ana Gabriela Milios, Evangelos E. |
author |
Mechaca, Ana Lidia |
author_facet |
Mechaca, Ana Lidia Marmanillo, Walter Gabriel Xamena, Eduardo Ramirez Orta, Juan Maguitman, Ana Gabriela Milios, Evangelos E. |
author_role |
author |
author2 |
Marmanillo, Walter Gabriel Xamena, Eduardo Ramirez Orta, Juan Maguitman, Ana Gabriela Milios, Evangelos E. |
author2_role |
author author author author author |
dc.subject.none.fl_str_mv |
OCR POST-PROCESSING DIGITAL HUMANITIES LANGUAGE MODELS |
topic |
OCR POST-PROCESSING DIGITAL HUMANITIES LANGUAGE MODELS |
purl_subject.fl_str_mv |
https://purl.org/becyt/ford/1.2 https://purl.org/becyt/ford/1 |
dc.description.none.fl_txt_mv |
Digital Humanities researchers often make use of software that helps them in the task of finding non-trivial relationships among characters in historical text. Usually, the source texts that contain such information come from OCR acquired volumes, carrying high amounts of errors within them. This work explains the development of a web platform for the task of OCR post-processing and ground-truth generation. This platform employs machine learning to predict the correct texts accurately from OCR noisy strings. The method used for this task involves transformers for character-based denoising language models. An active learning workflow is proposed, as the users can feed their corrections to the platform, generating new annotated data for re-training the underlying machine learning correction models. Fil: Mechaca, Ana Lidia. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina Fil: Marmanillo, Walter Gabriel. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina Fil: Xamena, Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Investigaciones en Ciencias Sociales y Humanidades. Universidad Nacional de Salta. Facultad de Humanidades. Instituto de Investigaciones en Ciencias Sociales y Humanidades; Argentina. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina Fil: Ramirez Orta, Juan. Dalhousie University Halifax; Canadá Fil: Maguitman, Ana Gabriela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina Fil: Milios, Evangelos E.. Dalhousie University Halifax; Canadá 50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos Ciudad Autónoma de Buenos Aires Argentina Sociedad Argentina de Investigación Operativa Instituto Nacional de Tecnología Agropecuaria |
description |
Digital Humanities researchers often make use of software that helps them in the task of finding non-trivial relationships among characters in historical text. Usually, the source texts that contain such information come from OCR acquired volumes, carrying high amounts of errors within them. This work explains the development of a web platform for the task of OCR post-processing and ground-truth generation. This platform employs machine learning to predict the correct texts accurately from OCR noisy strings. The method used for this task involves transformers for character-based denoising language models. An active learning workflow is proposed, as the users can feed their corrections to the platform, generating new annotated data for re-training the underlying machine learning correction models. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/conferenceObject Jornada Journal http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
status_str |
publishedVersion |
format |
conferenceObject |
dc.identifier.none.fl_str_mv |
http://hdl.handle.net/11336/173940 A web platform for collaborative semi-automatic OCR Post-processing; 50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos; Ciudad Autónoma de Buenos Aires; Argentina; 2021; 11-14 2683-8966 CONICET Digital CONICET |
url |
http://hdl.handle.net/11336/173940 |
identifier_str_mv |
A web platform for collaborative semi-automatic OCR Post-processing; 50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos; Ciudad Autónoma de Buenos Aires; Argentina; 2021; 11-14 2683-8966 CONICET Digital CONICET |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://50jaiio.sadio.org.ar/pdfs/agranda/AGRANDA-02.pdf |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/ |
dc.format.none.fl_str_mv |
application/pdf application/pdf |
dc.coverage.none.fl_str_mv |
Nacional |
dc.publisher.none.fl_str_mv |
Sociedad Argentina de Investigación Operativa |
publisher.none.fl_str_mv |
Sociedad Argentina de Investigación Operativa |
dc.source.none.fl_str_mv |
reponame:CONICET Digital (CONICET) instname:Consejo Nacional de Investigaciones Científicas y Técnicas |
reponame_str |
CONICET Digital (CONICET) |
collection |
CONICET Digital (CONICET) |
instname_str |
Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.name.fl_str_mv |
CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.mail.fl_str_mv |
dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar |
_version_ |
1844613515889868800 |
score |
13.070432 |