End-to-end platform evaluation for Spanish Handwritten Text Recognition

Autores
Xamena, Eduardo; Barboza, Héctor Emanuel; Orozco, Carlos Ismael
Año de publicación
2021
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
The task of automated recognition of handwritten texts requires various phases and technologies both optical and language related. This article describes an approach for performing this task in a comprehensive manner, using machine learning throughout all phases of the process. In addition to the explanation of the employed methodology, it describes the process of building and evaluating a model of manuscript recognition for the Spanish language. The original contribution of this article is given by the training and evaluation of Offline HTR models for Spanish language manuscripts, as well as the evaluation of a platform to perform this task in a complete way. In addition, it details the work being carried out to achieve improvements in the models obtained, and to develop new models for different complex corpora that are more difficult for the HTR task.
La tarea del reconocimiento automatizado de textos manuscritos requiere de diversas fases y tecnologías tanto ópticas como del lenguaje. En este artículo se describe un enfoque para la realización de esta tarea de forma completa, mediante el empleo de aprendizaje automatizado a lo largo de todas las fases del proceso. Además de explicar la metodología empleada, se describe el proceso de construcción y evaluación de un modelo de reconocimiento de manuscritos para el lenguaje español. La contribución original de este artículo está dada por el entrenamiento y evaluación de modelos de Offline HTR para manuscritos en español, así como la evaluación de una plataforma para la realización de esta tarea de forma completa. Además, se detallan los trabajos que se están llevando a cabo para lograr mejoras en los modelos obtenidos, y desarrollar nuevos modelos para distintos corpus de lectura compleja.
Fil: Xamena, Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Investigaciones en Ciencias Sociales y Humanidades. Universidad Nacional de Salta. Facultad de Humanidades. Instituto de Investigaciones en Ciencias Sociales y Humanidades; Argentina
Fil: Barboza, Héctor Emanuel. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
Fil: Orozco, Carlos Ismael. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
Materia
RECONOCIMIENTO DE TEXTOS MANUSCRITOS
SEGMENTACIÓN
HTR PUNTO A PUNTO
PROCESAMIENTO DE MANUSCRITOS HISTÓRICOS
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/173361

id CONICETDig_ce4e16ce87a5163e649cfc2d9cc7b0a6
oai_identifier_str oai:ri.conicet.gov.ar:11336/173361
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling End-to-end platform evaluation for Spanish Handwritten Text RecognitionEvaluación de una plataforma completa para Reconocimiento de Textos Manuscritos en EspañolXamena, EduardoBarboza, Héctor EmanuelOrozco, Carlos IsmaelRECONOCIMIENTO DE TEXTOS MANUSCRITOSSEGMENTACIÓNHTR PUNTO A PUNTOPROCESAMIENTO DE MANUSCRITOS HISTÓRICOShttps://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1The task of automated recognition of handwritten texts requires various phases and technologies both optical and language related. This article describes an approach for performing this task in a comprehensive manner, using machine learning throughout all phases of the process. In addition to the explanation of the employed methodology, it describes the process of building and evaluating a model of manuscript recognition for the Spanish language. The original contribution of this article is given by the training and evaluation of Offline HTR models for Spanish language manuscripts, as well as the evaluation of a platform to perform this task in a complete way. In addition, it details the work being carried out to achieve improvements in the models obtained, and to develop new models for different complex corpora that are more difficult for the HTR task.La tarea del reconocimiento automatizado de textos manuscritos requiere de diversas fases y tecnologías tanto ópticas como del lenguaje. En este artículo se describe un enfoque para la realización de esta tarea de forma completa, mediante el empleo de aprendizaje automatizado a lo largo de todas las fases del proceso. Además de explicar la metodología empleada, se describe el proceso de construcción y evaluación de un modelo de reconocimiento de manuscritos para el lenguaje español. La contribución original de este artículo está dada por el entrenamiento y evaluación de modelos de Offline HTR para manuscritos en español, así como la evaluación de una plataforma para la realización de esta tarea de forma completa. Además, se detallan los trabajos que se están llevando a cabo para lograr mejoras en los modelos obtenidos, y desarrollar nuevos modelos para distintos corpus de lectura compleja.Fil: Xamena, Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Investigaciones en Ciencias Sociales y Humanidades. Universidad Nacional de Salta. Facultad de Humanidades. Instituto de Investigaciones en Ciencias Sociales y Humanidades; ArgentinaFil: Barboza, Héctor Emanuel. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; ArgentinaFil: Orozco, Carlos Ismael. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; ArgentinaUniversidad de Palermo. Facultad de Ingeniería2021-12info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/173361Xamena, Eduardo; Barboza, Héctor Emanuel; Orozco, Carlos Ismael; End-to-end platform evaluation for Spanish Handwritten Text Recognition; Universidad de Palermo. Facultad de Ingeniería; Ciencia y Tecnología; 2021; 12-2021; 81-951850-08702344-9217CONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/url/https://dspace.palermo.edu/ojs/index.php/cyt/article/view/4327info:eu-repo/semantics/altIdentifier/doi/10.18682/cyt.vi21.4327info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T10:14:29Zoai:ri.conicet.gov.ar:11336/173361instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 10:14:29.762CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv End-to-end platform evaluation for Spanish Handwritten Text Recognition
Evaluación de una plataforma completa para Reconocimiento de Textos Manuscritos en Español
title End-to-end platform evaluation for Spanish Handwritten Text Recognition
spellingShingle End-to-end platform evaluation for Spanish Handwritten Text Recognition
Xamena, Eduardo
RECONOCIMIENTO DE TEXTOS MANUSCRITOS
SEGMENTACIÓN
HTR PUNTO A PUNTO
PROCESAMIENTO DE MANUSCRITOS HISTÓRICOS
title_short End-to-end platform evaluation for Spanish Handwritten Text Recognition
title_full End-to-end platform evaluation for Spanish Handwritten Text Recognition
title_fullStr End-to-end platform evaluation for Spanish Handwritten Text Recognition
title_full_unstemmed End-to-end platform evaluation for Spanish Handwritten Text Recognition
title_sort End-to-end platform evaluation for Spanish Handwritten Text Recognition
dc.creator.none.fl_str_mv Xamena, Eduardo
Barboza, Héctor Emanuel
Orozco, Carlos Ismael
author Xamena, Eduardo
author_facet Xamena, Eduardo
Barboza, Héctor Emanuel
Orozco, Carlos Ismael
author_role author
author2 Barboza, Héctor Emanuel
Orozco, Carlos Ismael
author2_role author
author
dc.subject.none.fl_str_mv RECONOCIMIENTO DE TEXTOS MANUSCRITOS
SEGMENTACIÓN
HTR PUNTO A PUNTO
PROCESAMIENTO DE MANUSCRITOS HISTÓRICOS
topic RECONOCIMIENTO DE TEXTOS MANUSCRITOS
SEGMENTACIÓN
HTR PUNTO A PUNTO
PROCESAMIENTO DE MANUSCRITOS HISTÓRICOS
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.2
https://purl.org/becyt/ford/1
dc.description.none.fl_txt_mv The task of automated recognition of handwritten texts requires various phases and technologies both optical and language related. This article describes an approach for performing this task in a comprehensive manner, using machine learning throughout all phases of the process. In addition to the explanation of the employed methodology, it describes the process of building and evaluating a model of manuscript recognition for the Spanish language. The original contribution of this article is given by the training and evaluation of Offline HTR models for Spanish language manuscripts, as well as the evaluation of a platform to perform this task in a complete way. In addition, it details the work being carried out to achieve improvements in the models obtained, and to develop new models for different complex corpora that are more difficult for the HTR task.
La tarea del reconocimiento automatizado de textos manuscritos requiere de diversas fases y tecnologías tanto ópticas como del lenguaje. En este artículo se describe un enfoque para la realización de esta tarea de forma completa, mediante el empleo de aprendizaje automatizado a lo largo de todas las fases del proceso. Además de explicar la metodología empleada, se describe el proceso de construcción y evaluación de un modelo de reconocimiento de manuscritos para el lenguaje español. La contribución original de este artículo está dada por el entrenamiento y evaluación de modelos de Offline HTR para manuscritos en español, así como la evaluación de una plataforma para la realización de esta tarea de forma completa. Además, se detallan los trabajos que se están llevando a cabo para lograr mejoras en los modelos obtenidos, y desarrollar nuevos modelos para distintos corpus de lectura compleja.
Fil: Xamena, Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Investigaciones en Ciencias Sociales y Humanidades. Universidad Nacional de Salta. Facultad de Humanidades. Instituto de Investigaciones en Ciencias Sociales y Humanidades; Argentina
Fil: Barboza, Héctor Emanuel. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
Fil: Orozco, Carlos Ismael. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
description The task of automated recognition of handwritten texts requires various phases and technologies both optical and language related. This article describes an approach for performing this task in a comprehensive manner, using machine learning throughout all phases of the process. In addition to the explanation of the employed methodology, it describes the process of building and evaluating a model of manuscript recognition for the Spanish language. The original contribution of this article is given by the training and evaluation of Offline HTR models for Spanish language manuscripts, as well as the evaluation of a platform to perform this task in a complete way. In addition, it details the work being carried out to achieve improvements in the models obtained, and to develop new models for different complex corpora that are more difficult for the HTR task.
publishDate 2021
dc.date.none.fl_str_mv 2021-12
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/173361
Xamena, Eduardo; Barboza, Héctor Emanuel; Orozco, Carlos Ismael; End-to-end platform evaluation for Spanish Handwritten Text Recognition; Universidad de Palermo. Facultad de Ingeniería; Ciencia y Tecnología; 2021; 12-2021; 81-95
1850-0870
2344-9217
CONICET Digital
CONICET
url http://hdl.handle.net/11336/173361
identifier_str_mv Xamena, Eduardo; Barboza, Héctor Emanuel; Orozco, Carlos Ismael; End-to-end platform evaluation for Spanish Handwritten Text Recognition; Universidad de Palermo. Facultad de Ingeniería; Ciencia y Tecnología; 2021; 12-2021; 81-95
1850-0870
2344-9217
CONICET Digital
CONICET
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://dspace.palermo.edu/ojs/index.php/cyt/article/view/4327
info:eu-repo/semantics/altIdentifier/doi/10.18682/cyt.vi21.4327
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidad de Palermo. Facultad de Ingeniería
publisher.none.fl_str_mv Universidad de Palermo. Facultad de Ingeniería
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1844614072674287616
score 13.070432