Corrección automática de errores de OCR en documentos semi-estructurados

Autores: Paliza, Pablo Andrés
Año de publicación: 2016
Idioma: español castellano
Tipo de recurso: tesis de grado
Estado: versión publicada
Colaborador/a o director/a de tesis: Estrella, Paula Susana
Descripción: Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.
En este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores.
This paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved.
Materia: Computing Methodologies
Document and Text Processing
Optical Character Recognition
OCR
Construcción de diccionarios
Archivos digitales
Nivel de accesibilidad: acceso abierto
Condiciones de uso
Repositorio
Institución: Universidad Nacional de Córdoba
OAI Identificador: oai:rdu.unc.edu.ar:11086/5587

Acceder

id	RDUUNC_aea75bfd8a2fad318784e2f1ed5ce023
oai_identifier_str	oai:rdu.unc.edu.ar:11086/5587
network_acronym_str	RDUUNC
repository_id_str	2572
network_name_str	Repositorio Digital Universitario (UNC)
spelling	Corrección automática de errores de OCR en documentos semi-estructuradosPaliza, Pablo AndrésComputing MethodologiesDocument and Text ProcessingOptical Character RecognitionOCRConstrucción de diccionariosArchivos digitalesTesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.En este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores.This paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved.Estrella, Paula Susana2016-12-07info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://hdl.handle.net/11086/5587spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2026-06-04T09:44:43Zoai:rdu.unc.edu.ar:11086/5587Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722026-06-04 09:44:43.454Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv	Corrección automática de errores de OCR en documentos semi-estructurados
title	Corrección automática de errores de OCR en documentos semi-estructurados
spellingShingle	Corrección automática de errores de OCR en documentos semi-estructurados Paliza, Pablo Andrés Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales
title_short	Corrección automática de errores de OCR en documentos semi-estructurados
title_full	Corrección automática de errores de OCR en documentos semi-estructurados
title_fullStr	Corrección automática de errores de OCR en documentos semi-estructurados
title_full_unstemmed	Corrección automática de errores de OCR en documentos semi-estructurados
title_sort	Corrección automática de errores de OCR en documentos semi-estructurados
dc.creator.none.fl_str_mv	Paliza, Pablo Andrés
author	Paliza, Pablo Andrés
author_facet	Paliza, Pablo Andrés
author_role	author
dc.contributor.none.fl_str_mv	Estrella, Paula Susana
dc.subject.none.fl_str_mv	Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales
topic	Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales
dc.description.none.fl_txt_mv	Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016. En este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores. This paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved.
description	Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.
publishDate	2016
dc.date.none.fl_str_mv	2016-12-07
dc.type.none.fl_str_mv	info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado
format	bachelorThesis
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://hdl.handle.net/11086/5587
url	http://hdl.handle.net/11086/5587
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositorio Digital Universitario (UNC) instname:Universidad Nacional de Córdoba instacron:UNC
reponame_str	Repositorio Digital Universitario (UNC)
collection	Repositorio Digital Universitario (UNC)
instname_str	Universidad Nacional de Córdoba
instacron_str	UNC
institution	UNC
repository.name.fl_str_mv	Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv	oca.unc@gmail.com
_version_	1867091355250982912
score	12.832306

Corrección automática de errores de OCR en documentos semi-estructurados

Publicaciones similares