Corrección automática de errores de OCR en documentos semi-estructurados
- Autores
- Paliza, Pablo Andrés
- Año de publicación
- 2016
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Estrella, Paula Susana
- Descripción
- Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.
En este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores.
This paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved. - Materia
-
Computing Methodologies
Document and Text Processing
Optical Character Recognition
OCR
Construcción de diccionarios
Archivos digitales - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- Repositorio
.jpg)
- Institución
- Universidad Nacional de Córdoba
- OAI Identificador
- oai:rdu.unc.edu.ar:11086/5587
Ver los metadatos del registro completo
| id |
RDUUNC_aea75bfd8a2fad318784e2f1ed5ce023 |
|---|---|
| oai_identifier_str |
oai:rdu.unc.edu.ar:11086/5587 |
| network_acronym_str |
RDUUNC |
| repository_id_str |
2572 |
| network_name_str |
Repositorio Digital Universitario (UNC) |
| spelling |
Corrección automática de errores de OCR en documentos semi-estructuradosPaliza, Pablo AndrésComputing MethodologiesDocument and Text ProcessingOptical Character RecognitionOCRConstrucción de diccionariosArchivos digitalesTesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.En este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores.This paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved.Estrella, Paula Susana2016-12-07info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://hdl.handle.net/11086/5587spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2025-10-16T09:31:31Zoai:rdu.unc.edu.ar:11086/5587Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722025-10-16 09:31:31.743Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse |
| dc.title.none.fl_str_mv |
Corrección automática de errores de OCR en documentos semi-estructurados |
| title |
Corrección automática de errores de OCR en documentos semi-estructurados |
| spellingShingle |
Corrección automática de errores de OCR en documentos semi-estructurados Paliza, Pablo Andrés Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales |
| title_short |
Corrección automática de errores de OCR en documentos semi-estructurados |
| title_full |
Corrección automática de errores de OCR en documentos semi-estructurados |
| title_fullStr |
Corrección automática de errores de OCR en documentos semi-estructurados |
| title_full_unstemmed |
Corrección automática de errores de OCR en documentos semi-estructurados |
| title_sort |
Corrección automática de errores de OCR en documentos semi-estructurados |
| dc.creator.none.fl_str_mv |
Paliza, Pablo Andrés |
| author |
Paliza, Pablo Andrés |
| author_facet |
Paliza, Pablo Andrés |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Estrella, Paula Susana |
| dc.subject.none.fl_str_mv |
Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales |
| topic |
Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales |
| dc.description.none.fl_txt_mv |
Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016. En este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores. This paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved. |
| description |
Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016. |
| publishDate |
2016 |
| dc.date.none.fl_str_mv |
2016-12-07 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
| format |
bachelorThesis |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://hdl.handle.net/11086/5587 |
| url |
http://hdl.handle.net/11086/5587 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositorio Digital Universitario (UNC) instname:Universidad Nacional de Córdoba instacron:UNC |
| reponame_str |
Repositorio Digital Universitario (UNC) |
| collection |
Repositorio Digital Universitario (UNC) |
| instname_str |
Universidad Nacional de Córdoba |
| instacron_str |
UNC |
| institution |
UNC |
| repository.name.fl_str_mv |
Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba |
| repository.mail.fl_str_mv |
oca.unc@gmail.com |
| _version_ |
1846143401296134144 |
| score |
12.712165 |