Generación de resúmenes de texto en español

Autores: Córdoba, Leonardo Ignacio
Año de publicación: 2022
Idioma: español castellano
Tipo de recurso: tesis de maestría
Estado: versión publicada
Colaborador/a o director/a de tesis: Lombardi, Leandro Ezequiel
Descripción: En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual.
In the last few years there has been several advances in text generation tasks. Especially, the development and generalization of pretrained models allows the training of models for specialized tasks -a.k.a. downstream tasks- at low computational cost. On the other hand, abstract text summarization is a task for which relatively few data sets are available in Spanish. For this reason, this work focuses on the training of machine learning models for summarization in Spanish and the construction of appropriate datasets for this task. As part of it, 5 models trained from architectures based on Transformers and 2 data sets obtained from Common Crawl are available. Additionally, automatically calculated metrics are compared to scores obtained through manual tagging.
Fil: Córdoba, Leonardo Ignacio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia: RESUMEN ABSTRACTO
PROCESAMIENTO DEL LENGUAJE NATURAL
GENERACION DE TEXTO
ABSTRACT SUMMARY
TEXT GENERATION
TRANSFORMERS
COMMON CRAWL
Nivel de accesibilidad: acceso abierto
Condiciones de uso: https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Institución: Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador: tesis:tesis_n7357_Cordoba

Acceder

id	BDUBAFCEN_aaea48cb37f4374f95fe540d1ba272ac
oai_identifier_str	tesis:tesis_n7357_Cordoba
network_acronym_str	BDUBAFCEN
repository_id_str	1896
network_name_str	Biblioteca Digital (UBA-FCEN)
spelling	Generación de resúmenes de texto en españolGeneration of text summaries in spanishCórdoba, Leonardo IgnacioRESUMEN ABSTRACTOPROCESAMIENTO DEL LENGUAJE NATURALGENERACION DE TEXTOABSTRACT SUMMARYTEXT GENERATIONTRANSFORMERSCOMMON CRAWLEn los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual.In the last few years there has been several advances in text generation tasks. Especially, the development and generalization of pretrained models allows the training of models for specialized tasks -a.k.a. downstream tasks- at low computational cost. On the other hand, abstract text summarization is a task for which relatively few data sets are available in Spanish. For this reason, this work focuses on the training of machine learning models for summarization in Spanish and the construction of appropriate datasets for this task. As part of it, 5 models trained from architectures based on Transformers and 2 data sets obtained from Common Crawl are available. Additionally, automatically calculated metrics are compared to scores obtained through manual tagging.Fil: Córdoba, Leonardo Ignacio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesLombardi, Leandro Ezequiel2022-08-17info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n7357_Cordobaspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-06-04T09:43:22Ztesis:tesis_n7357_CordobaInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-06-04 09:43:23.641Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv	Generación de resúmenes de texto en español Generation of text summaries in spanish
title	Generación de resúmenes de texto en español
spellingShingle	Generación de resúmenes de texto en español Córdoba, Leonardo Ignacio RESUMEN ABSTRACTO PROCESAMIENTO DEL LENGUAJE NATURAL GENERACION DE TEXTO ABSTRACT SUMMARY TEXT GENERATION TRANSFORMERS COMMON CRAWL
title_short	Generación de resúmenes de texto en español
title_full	Generación de resúmenes de texto en español
title_fullStr	Generación de resúmenes de texto en español
title_full_unstemmed	Generación de resúmenes de texto en español
title_sort	Generación de resúmenes de texto en español
dc.creator.none.fl_str_mv	Córdoba, Leonardo Ignacio
author	Córdoba, Leonardo Ignacio
author_facet	Córdoba, Leonardo Ignacio
author_role	author
dc.contributor.none.fl_str_mv	Lombardi, Leandro Ezequiel
dc.subject.none.fl_str_mv	RESUMEN ABSTRACTO PROCESAMIENTO DEL LENGUAJE NATURAL GENERACION DE TEXTO ABSTRACT SUMMARY TEXT GENERATION TRANSFORMERS COMMON CRAWL
topic	RESUMEN ABSTRACTO PROCESAMIENTO DEL LENGUAJE NATURAL GENERACION DE TEXTO ABSTRACT SUMMARY TEXT GENERATION TRANSFORMERS COMMON CRAWL
dc.description.none.fl_txt_mv	En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual. In the last few years there has been several advances in text generation tasks. Especially, the development and generalization of pretrained models allows the training of models for specialized tasks -a.k.a. downstream tasks- at low computational cost. On the other hand, abstract text summarization is a task for which relatively few data sets are available in Spanish. For this reason, this work focuses on the training of machine learning models for summarization in Spanish and the construction of appropriate datasets for this task. As part of it, 5 models trained from architectures based on Transformers and 2 data sets obtained from Common Crawl are available. Additionally, automatically calculated metrics are compared to scores obtained through manual tagging. Fil: Córdoba, Leonardo Ignacio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description	En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual.
publishDate	2022
dc.date.none.fl_str_mv	2022-08-17
dc.type.none.fl_str_mv	info:eu-repo/semantics/masterThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_bdcc info:ar-repo/semantics/tesisDeMaestria
format	masterThesis
status_str	publishedVersion
dc.identifier.none.fl_str_mv	https://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba
url	https://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv	openAccess
rights_invalid_str_mv	https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv	reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN
reponame_str	Biblioteca Digital (UBA-FCEN)
collection	Biblioteca Digital (UBA-FCEN)
instname_str	Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str	UBA-FCEN
institution	UBA-FCEN
repository.name.fl_str_mv	Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv	ana@bl.fcen.uba.ar
_version_	1867090991611117568
score	12.832306

Generación de resúmenes de texto en español

Publicaciones similares