Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO

Autores
Garagiola, Nazareno
Año de publicación
2022
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Cardellino, Cristian Adrián
Descripción
Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.
Fil: Garagiola, Nazareno. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
En este trabajo se realizarán tareas de especialización sobre BETO, que es un modelo de lenguaje no supervisado, equivalente al modelo del lenguaje BERT, pero entrenado sobre un corpus de gran volumen del español. Intentaremos mejorar los resultados de la tarea de reconocimiento de entidades nombradas en español. El trabajo contará de varias etapas, en la primera etapa se buscará reproducir los resultados de BETO para tener un resultado sobre el cuál desarrollar. En una siguiente etapa se buscará mejorar el desempeño de BETO utilizando grandes corpus anotados del español, que requerirán un pre-proceso para alinearlo a las entidades presentes en el corpus de evaluación. Finalmente, se pasará a un esquema semi-supervisado, donde se utilizarán los mejores modelos encontrados para anotar un conjunto de datos no etiquetado, que se utilizará para afinar BETO en un esquema de bootstrapping.
In this work, specialization tasks will be carried out on BETO, which is an unsupervised language model, equivalent to the BERT language model, but trained on a large volume corpus of Spanish. We will try to improve the results of the Recognition of Named Entities in Spanish task. The work will have several stages, in the first stage it will seek to reproduce the results of BETO to have a result on which to develop. In a next stage, the performance of BETO will be improved using large annotated corpus of Spanish, which will require a pre-process to align it with the entities present in the evaluation corpus. Finally, we will move to a semi-supervised scheme, where the best models found will be used to annotate an unlabeled data set, which will be used to tune BETO in a bootstrapping scheme.
Fil: Garagiola, Nazareno. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
Materia
Entidades nombradas
Procesamiento lenguaje natural
PLN
Extracción de información
Metodologías informáticas
Inteligencia artificial
BETO
NER
Computing methodologies
Artificial intelligence
Natural language processing
Information extraction
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Repositorio
Repositorio Digital Universitario (UNC)
Institución
Universidad Nacional de Córdoba
OAI Identificador
oai:rdu.unc.edu.ar:11086/28964

id RDUUNC_fa12e87d67b5cfe600b7ce1411453ecd
oai_identifier_str oai:rdu.unc.edu.ar:11086/28964
network_acronym_str RDUUNC
repository_id_str 2572
network_name_str Repositorio Digital Universitario (UNC)
spelling Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETOGaragiola, NazarenoEntidades nombradasProcesamiento lenguaje naturalPLNExtracción de informaciónMetodologías informáticasInteligencia artificialBETONERComputing methodologiesArtificial intelligenceNatural language processingInformation extractionTesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.Fil: Garagiola, Nazareno. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.En este trabajo se realizarán tareas de especialización sobre BETO, que es un modelo de lenguaje no supervisado, equivalente al modelo del lenguaje BERT, pero entrenado sobre un corpus de gran volumen del español. Intentaremos mejorar los resultados de la tarea de reconocimiento de entidades nombradas en español. El trabajo contará de varias etapas, en la primera etapa se buscará reproducir los resultados de BETO para tener un resultado sobre el cuál desarrollar. En una siguiente etapa se buscará mejorar el desempeño de BETO utilizando grandes corpus anotados del español, que requerirán un pre-proceso para alinearlo a las entidades presentes en el corpus de evaluación. Finalmente, se pasará a un esquema semi-supervisado, donde se utilizarán los mejores modelos encontrados para anotar un conjunto de datos no etiquetado, que se utilizará para afinar BETO en un esquema de bootstrapping.In this work, specialization tasks will be carried out on BETO, which is an unsupervised language model, equivalent to the BERT language model, but trained on a large volume corpus of Spanish. We will try to improve the results of the Recognition of Named Entities in Spanish task. The work will have several stages, in the first stage it will seek to reproduce the results of BETO to have a result on which to develop. In a next stage, the performance of BETO will be improved using large annotated corpus of Spanish, which will require a pre-process to align it with the entities present in the evaluation corpus. Finally, we will move to a semi-supervised scheme, where the best models found will be used to annotate an unlabeled data set, which will be used to tune BETO in a bootstrapping scheme.Fil: Garagiola, Nazareno. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.Cardellino, Cristian Adrián2022info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://hdl.handle.net/11086/28964spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2025-09-04T12:32:59Zoai:rdu.unc.edu.ar:11086/28964Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722025-09-04 12:33:00.002Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
title Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
spellingShingle Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
Garagiola, Nazareno
Entidades nombradas
Procesamiento lenguaje natural
PLN
Extracción de información
Metodologías informáticas
Inteligencia artificial
BETO
NER
Computing methodologies
Artificial intelligence
Natural language processing
Information extraction
title_short Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
title_full Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
title_fullStr Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
title_full_unstemmed Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
title_sort Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
dc.creator.none.fl_str_mv Garagiola, Nazareno
author Garagiola, Nazareno
author_facet Garagiola, Nazareno
author_role author
dc.contributor.none.fl_str_mv Cardellino, Cristian Adrián
dc.subject.none.fl_str_mv Entidades nombradas
Procesamiento lenguaje natural
PLN
Extracción de información
Metodologías informáticas
Inteligencia artificial
BETO
NER
Computing methodologies
Artificial intelligence
Natural language processing
Information extraction
topic Entidades nombradas
Procesamiento lenguaje natural
PLN
Extracción de información
Metodologías informáticas
Inteligencia artificial
BETO
NER
Computing methodologies
Artificial intelligence
Natural language processing
Information extraction
dc.description.none.fl_txt_mv Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.
Fil: Garagiola, Nazareno. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
En este trabajo se realizarán tareas de especialización sobre BETO, que es un modelo de lenguaje no supervisado, equivalente al modelo del lenguaje BERT, pero entrenado sobre un corpus de gran volumen del español. Intentaremos mejorar los resultados de la tarea de reconocimiento de entidades nombradas en español. El trabajo contará de varias etapas, en la primera etapa se buscará reproducir los resultados de BETO para tener un resultado sobre el cuál desarrollar. En una siguiente etapa se buscará mejorar el desempeño de BETO utilizando grandes corpus anotados del español, que requerirán un pre-proceso para alinearlo a las entidades presentes en el corpus de evaluación. Finalmente, se pasará a un esquema semi-supervisado, donde se utilizarán los mejores modelos encontrados para anotar un conjunto de datos no etiquetado, que se utilizará para afinar BETO en un esquema de bootstrapping.
In this work, specialization tasks will be carried out on BETO, which is an unsupervised language model, equivalent to the BERT language model, but trained on a large volume corpus of Spanish. We will try to improve the results of the Recognition of Named Entities in Spanish task. The work will have several stages, in the first stage it will seek to reproduce the results of BETO to have a result on which to develop. In a next stage, the performance of BETO will be improved using large annotated corpus of Spanish, which will require a pre-process to align it with the entities present in the evaluation corpus. Finally, we will move to a semi-supervised scheme, where the best models found will be used to annotate an unlabeled data set, which will be used to tune BETO in a bootstrapping scheme.
Fil: Garagiola, Nazareno. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
description Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.
publishDate 2022
dc.date.none.fl_str_mv 2022
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11086/28964
url http://hdl.handle.net/11086/28964
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositorio Digital Universitario (UNC)
instname:Universidad Nacional de Córdoba
instacron:UNC
reponame_str Repositorio Digital Universitario (UNC)
collection Repositorio Digital Universitario (UNC)
instname_str Universidad Nacional de Córdoba
instacron_str UNC
institution UNC
repository.name.fl_str_mv Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv oca.unc@gmail.com
_version_ 1842349652745125888
score 13.13397