A web platform for collaborative semi-automatic OCR Post-processing

Autores
Mechaca, Ana Lidia; Marmanillo, Walter Gabriel; Xamena, Eduardo; Ramirez Orta, Juan; Maguitman, Ana Gabriela; Milios, Evangelos E.
Año de publicación
2021
Idioma
inglés
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Digital Humanities researchers often make use of software that helps them in the task of finding non-trivial relationships among characters in historical text. Usually, the source texts that contain such information come from OCR acquired volumes, carrying high amounts of errors within them. This work explains the development of a web platform for the task of OCR post-processing and ground-truth generation. This platform employs machine learning to predict the correct texts accurately from OCR noisy strings. The method used for this task involves transformers for character-based denoising language models. An active learning workflow is proposed, as the users can feed their corrections to the platform, generating new annotated data for re-training the underlying machine learning correction models.
Fil: Mechaca, Ana Lidia. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
Fil: Marmanillo, Walter Gabriel. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
Fil: Xamena, Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Investigaciones en Ciencias Sociales y Humanidades. Universidad Nacional de Salta. Facultad de Humanidades. Instituto de Investigaciones en Ciencias Sociales y Humanidades; Argentina. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
Fil: Ramirez Orta, Juan. Dalhousie University Halifax; Canadá
Fil: Maguitman, Ana Gabriela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina
Fil: Milios, Evangelos E.. Dalhousie University Halifax; Canadá
50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos
Ciudad Autónoma de Buenos Aires
Argentina
Sociedad Argentina de Investigación Operativa
Instituto Nacional de Tecnología Agropecuaria
Materia
OCR POST-PROCESSING
DIGITAL HUMANITIES
LANGUAGE MODELS
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/173940

id CONICETDig_e332afce96b45ba49e74292ae84dd116
oai_identifier_str oai:ri.conicet.gov.ar:11336/173940
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling A web platform for collaborative semi-automatic OCR Post-processingMechaca, Ana LidiaMarmanillo, Walter GabrielXamena, EduardoRamirez Orta, JuanMaguitman, Ana GabrielaMilios, Evangelos E.OCR POST-PROCESSINGDIGITAL HUMANITIESLANGUAGE MODELShttps://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1Digital Humanities researchers often make use of software that helps them in the task of finding non-trivial relationships among characters in historical text. Usually, the source texts that contain such information come from OCR acquired volumes, carrying high amounts of errors within them. This work explains the development of a web platform for the task of OCR post-processing and ground-truth generation. This platform employs machine learning to predict the correct texts accurately from OCR noisy strings. The method used for this task involves transformers for character-based denoising language models. An active learning workflow is proposed, as the users can feed their corrections to the platform, generating new annotated data for re-training the underlying machine learning correction models.Fil: Mechaca, Ana Lidia. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; ArgentinaFil: Marmanillo, Walter Gabriel. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; ArgentinaFil: Xamena, Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Investigaciones en Ciencias Sociales y Humanidades. Universidad Nacional de Salta. Facultad de Humanidades. Instituto de Investigaciones en Ciencias Sociales y Humanidades; Argentina. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; ArgentinaFil: Ramirez Orta, Juan. Dalhousie University Halifax; CanadáFil: Maguitman, Ana Gabriela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; ArgentinaFil: Milios, Evangelos E.. Dalhousie University Halifax; Canadá50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes DatosCiudad Autónoma de Buenos AiresArgentinaSociedad Argentina de Investigación OperativaInstituto Nacional de Tecnología AgropecuariaSociedad Argentina de Investigación Operativa2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/conferenceObjectJornadaJournalhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/173940A web platform for collaborative semi-automatic OCR Post-processing; 50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos; Ciudad Autónoma de Buenos Aires; Argentina; 2021; 11-142683-8966CONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/url/https://50jaiio.sadio.org.ar/pdfs/agranda/AGRANDA-02.pdfNacionalinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T09:48:53Zoai:ri.conicet.gov.ar:11336/173940instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 09:48:53.562CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv A web platform for collaborative semi-automatic OCR Post-processing
title A web platform for collaborative semi-automatic OCR Post-processing
spellingShingle A web platform for collaborative semi-automatic OCR Post-processing
Mechaca, Ana Lidia
OCR POST-PROCESSING
DIGITAL HUMANITIES
LANGUAGE MODELS
title_short A web platform for collaborative semi-automatic OCR Post-processing
title_full A web platform for collaborative semi-automatic OCR Post-processing
title_fullStr A web platform for collaborative semi-automatic OCR Post-processing
title_full_unstemmed A web platform for collaborative semi-automatic OCR Post-processing
title_sort A web platform for collaborative semi-automatic OCR Post-processing
dc.creator.none.fl_str_mv Mechaca, Ana Lidia
Marmanillo, Walter Gabriel
Xamena, Eduardo
Ramirez Orta, Juan
Maguitman, Ana Gabriela
Milios, Evangelos E.
author Mechaca, Ana Lidia
author_facet Mechaca, Ana Lidia
Marmanillo, Walter Gabriel
Xamena, Eduardo
Ramirez Orta, Juan
Maguitman, Ana Gabriela
Milios, Evangelos E.
author_role author
author2 Marmanillo, Walter Gabriel
Xamena, Eduardo
Ramirez Orta, Juan
Maguitman, Ana Gabriela
Milios, Evangelos E.
author2_role author
author
author
author
author
dc.subject.none.fl_str_mv OCR POST-PROCESSING
DIGITAL HUMANITIES
LANGUAGE MODELS
topic OCR POST-PROCESSING
DIGITAL HUMANITIES
LANGUAGE MODELS
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.2
https://purl.org/becyt/ford/1
dc.description.none.fl_txt_mv Digital Humanities researchers often make use of software that helps them in the task of finding non-trivial relationships among characters in historical text. Usually, the source texts that contain such information come from OCR acquired volumes, carrying high amounts of errors within them. This work explains the development of a web platform for the task of OCR post-processing and ground-truth generation. This platform employs machine learning to predict the correct texts accurately from OCR noisy strings. The method used for this task involves transformers for character-based denoising language models. An active learning workflow is proposed, as the users can feed their corrections to the platform, generating new annotated data for re-training the underlying machine learning correction models.
Fil: Mechaca, Ana Lidia. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
Fil: Marmanillo, Walter Gabriel. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
Fil: Xamena, Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Investigaciones en Ciencias Sociales y Humanidades. Universidad Nacional de Salta. Facultad de Humanidades. Instituto de Investigaciones en Ciencias Sociales y Humanidades; Argentina. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
Fil: Ramirez Orta, Juan. Dalhousie University Halifax; Canadá
Fil: Maguitman, Ana Gabriela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina
Fil: Milios, Evangelos E.. Dalhousie University Halifax; Canadá
50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos
Ciudad Autónoma de Buenos Aires
Argentina
Sociedad Argentina de Investigación Operativa
Instituto Nacional de Tecnología Agropecuaria
description Digital Humanities researchers often make use of software that helps them in the task of finding non-trivial relationships among characters in historical text. Usually, the source texts that contain such information come from OCR acquired volumes, carrying high amounts of errors within them. This work explains the development of a web platform for the task of OCR post-processing and ground-truth generation. This platform employs machine learning to predict the correct texts accurately from OCR noisy strings. The method used for this task involves transformers for character-based denoising language models. An active learning workflow is proposed, as the users can feed their corrections to the platform, generating new annotated data for re-training the underlying machine learning correction models.
publishDate 2021
dc.date.none.fl_str_mv 2021
dc.type.none.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/conferenceObject
Jornada
Journal
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
status_str publishedVersion
format conferenceObject
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/173940
A web platform for collaborative semi-automatic OCR Post-processing; 50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos; Ciudad Autónoma de Buenos Aires; Argentina; 2021; 11-14
2683-8966
CONICET Digital
CONICET
url http://hdl.handle.net/11336/173940
identifier_str_mv A web platform for collaborative semi-automatic OCR Post-processing; 50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos; Ciudad Autónoma de Buenos Aires; Argentina; 2021; 11-14
2683-8966
CONICET Digital
CONICET
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://50jaiio.sadio.org.ar/pdfs/agranda/AGRANDA-02.pdf
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.coverage.none.fl_str_mv Nacional
dc.publisher.none.fl_str_mv Sociedad Argentina de Investigación Operativa
publisher.none.fl_str_mv Sociedad Argentina de Investigación Operativa
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1844613515889868800
score 13.070432