Corrección automática de errores de OCR en documentos semi-estructurados

Autores
Paliza, Pablo Andrés
Año de publicación
2016
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Estrella, Paula Susana
Descripción
Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.
En este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores.
This paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved.
Materia
Computing Methodologies
Document and Text Processing
Optical Character Recognition
OCR
Construcción de diccionarios
Archivos digitales
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Repositorio
Repositorio Digital Universitario (UNC)
Institución
Universidad Nacional de Córdoba
OAI Identificador
oai:rdu.unc.edu.ar:11086/5587

id RDUUNC_aea75bfd8a2fad318784e2f1ed5ce023
oai_identifier_str oai:rdu.unc.edu.ar:11086/5587
network_acronym_str RDUUNC
repository_id_str 2572
network_name_str Repositorio Digital Universitario (UNC)
spelling Corrección automática de errores de OCR en documentos semi-estructuradosPaliza, Pablo AndrésComputing MethodologiesDocument and Text ProcessingOptical Character RecognitionOCRConstrucción de diccionariosArchivos digitalesTesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.En este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores.This paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved.Estrella, Paula Susana2016-12-07info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://hdl.handle.net/11086/5587spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2025-10-16T09:31:31Zoai:rdu.unc.edu.ar:11086/5587Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722025-10-16 09:31:31.743Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv Corrección automática de errores de OCR en documentos semi-estructurados
title Corrección automática de errores de OCR en documentos semi-estructurados
spellingShingle Corrección automática de errores de OCR en documentos semi-estructurados
Paliza, Pablo Andrés
Computing Methodologies
Document and Text Processing
Optical Character Recognition
OCR
Construcción de diccionarios
Archivos digitales
title_short Corrección automática de errores de OCR en documentos semi-estructurados
title_full Corrección automática de errores de OCR en documentos semi-estructurados
title_fullStr Corrección automática de errores de OCR en documentos semi-estructurados
title_full_unstemmed Corrección automática de errores de OCR en documentos semi-estructurados
title_sort Corrección automática de errores de OCR en documentos semi-estructurados
dc.creator.none.fl_str_mv Paliza, Pablo Andrés
author Paliza, Pablo Andrés
author_facet Paliza, Pablo Andrés
author_role author
dc.contributor.none.fl_str_mv Estrella, Paula Susana
dc.subject.none.fl_str_mv Computing Methodologies
Document and Text Processing
Optical Character Recognition
OCR
Construcción de diccionarios
Archivos digitales
topic Computing Methodologies
Document and Text Processing
Optical Character Recognition
OCR
Construcción de diccionarios
Archivos digitales
dc.description.none.fl_txt_mv Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.
En este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores.
This paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved.
description Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.
publishDate 2016
dc.date.none.fl_str_mv 2016-12-07
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11086/5587
url http://hdl.handle.net/11086/5587
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositorio Digital Universitario (UNC)
instname:Universidad Nacional de Córdoba
instacron:UNC
reponame_str Repositorio Digital Universitario (UNC)
collection Repositorio Digital Universitario (UNC)
instname_str Universidad Nacional de Córdoba
instacron_str UNC
institution UNC
repository.name.fl_str_mv Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv oca.unc@gmail.com
_version_ 1846143401296134144
score 12.712165