Generación de resúmenes de texto en español

Autores
Córdoba, Leonardo Ignacio
Año de publicación
2022
Idioma
español castellano
Tipo de recurso
tesis de maestría
Estado
versión publicada
Colaborador/a o director/a de tesis
Lombardi, Leandro Ezequiel
Descripción
En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual.
In the last few years there has been several advances in text generation tasks. Especially, the development and generalization of pretrained models allows the training of models for specialized tasks -a.k.a. downstream tasks- at low computational cost. On the other hand, abstract text summarization is a task for which relatively few data sets are available in Spanish. For this reason, this work focuses on the training of machine learning models for summarization in Spanish and the construction of appropriate datasets for this task. As part of it, 5 models trained from architectures based on Transformers and 2 data sets obtained from Common Crawl are available. Additionally, automatically calculated metrics are compared to scores obtained through manual tagging.
Fil: Córdoba, Leonardo Ignacio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
RESUMEN ABSTRACTO
PROCESAMIENTO DEL LENGUAJE NATURAL
GENERACION DE TEXTO
ABSTRACT SUMMARY
TEXT GENERATION
TRANSFORMERS
COMMON CRAWL
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
tesis:tesis_n7357_Cordoba

id BDUBAFCEN_aaea48cb37f4374f95fe540d1ba272ac
oai_identifier_str tesis:tesis_n7357_Cordoba
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Generación de resúmenes de texto en españolGeneration of text summaries in spanishCórdoba, Leonardo IgnacioRESUMEN ABSTRACTOPROCESAMIENTO DEL LENGUAJE NATURALGENERACION DE TEXTOABSTRACT SUMMARYTEXT GENERATIONTRANSFORMERSCOMMON CRAWLEn los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual.In the last few years there has been several advances in text generation tasks. Especially, the development and generalization of pretrained models allows the training of models for specialized tasks -a.k.a. downstream tasks- at low computational cost. On the other hand, abstract text summarization is a task for which relatively few data sets are available in Spanish. For this reason, this work focuses on the training of machine learning models for summarization in Spanish and the construction of appropriate datasets for this task. As part of it, 5 models trained from architectures based on Transformers and 2 data sets obtained from Common Crawl are available. Additionally, automatically calculated metrics are compared to scores obtained through manual tagging.Fil: Córdoba, Leonardo Ignacio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesLombardi, Leandro Ezequiel2022-08-17info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n7357_Cordobaspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:42:06Ztesis:tesis_n7357_CordobaInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:42:07.083Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Generación de resúmenes de texto en español
Generation of text summaries in spanish
title Generación de resúmenes de texto en español
spellingShingle Generación de resúmenes de texto en español
Córdoba, Leonardo Ignacio
RESUMEN ABSTRACTO
PROCESAMIENTO DEL LENGUAJE NATURAL
GENERACION DE TEXTO
ABSTRACT SUMMARY
TEXT GENERATION
TRANSFORMERS
COMMON CRAWL
title_short Generación de resúmenes de texto en español
title_full Generación de resúmenes de texto en español
title_fullStr Generación de resúmenes de texto en español
title_full_unstemmed Generación de resúmenes de texto en español
title_sort Generación de resúmenes de texto en español
dc.creator.none.fl_str_mv Córdoba, Leonardo Ignacio
author Córdoba, Leonardo Ignacio
author_facet Córdoba, Leonardo Ignacio
author_role author
dc.contributor.none.fl_str_mv Lombardi, Leandro Ezequiel
dc.subject.none.fl_str_mv RESUMEN ABSTRACTO
PROCESAMIENTO DEL LENGUAJE NATURAL
GENERACION DE TEXTO
ABSTRACT SUMMARY
TEXT GENERATION
TRANSFORMERS
COMMON CRAWL
topic RESUMEN ABSTRACTO
PROCESAMIENTO DEL LENGUAJE NATURAL
GENERACION DE TEXTO
ABSTRACT SUMMARY
TEXT GENERATION
TRANSFORMERS
COMMON CRAWL
dc.description.none.fl_txt_mv En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual.
In the last few years there has been several advances in text generation tasks. Especially, the development and generalization of pretrained models allows the training of models for specialized tasks -a.k.a. downstream tasks- at low computational cost. On the other hand, abstract text summarization is a task for which relatively few data sets are available in Spanish. For this reason, this work focuses on the training of machine learning models for summarization in Spanish and the construction of appropriate datasets for this task. As part of it, 5 models trained from architectures based on Transformers and 2 data sets obtained from Common Crawl are available. Additionally, automatically calculated metrics are compared to scores obtained through manual tagging.
Fil: Córdoba, Leonardo Ignacio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual.
publishDate 2022
dc.date.none.fl_str_mv 2022-08-17
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_bdcc
info:ar-repo/semantics/tesisDeMaestria
format masterThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba
url https://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618719108530176
score 13.070432