Generación de resúmenes de texto en español
- Autores
- Córdoba, Leonardo Ignacio
- Año de publicación
- 2022
- Idioma
- español castellano
- Tipo de recurso
- tesis de maestría
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Lombardi, Leandro Ezequiel
- Descripción
- En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual.
In the last few years there has been several advances in text generation tasks. Especially, the development and generalization of pretrained models allows the training of models for specialized tasks -a.k.a. downstream tasks- at low computational cost. On the other hand, abstract text summarization is a task for which relatively few data sets are available in Spanish. For this reason, this work focuses on the training of machine learning models for summarization in Spanish and the construction of appropriate datasets for this task. As part of it, 5 models trained from architectures based on Transformers and 2 data sets obtained from Common Crawl are available. Additionally, automatically calculated metrics are compared to scores obtained through manual tagging.
Fil: Córdoba, Leonardo Ignacio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
RESUMEN ABSTRACTO
PROCESAMIENTO DEL LENGUAJE NATURAL
GENERACION DE TEXTO
ABSTRACT SUMMARY
TEXT GENERATION
TRANSFORMERS
COMMON CRAWL - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- tesis:tesis_n7357_Cordoba
Ver los metadatos del registro completo
id |
BDUBAFCEN_aaea48cb37f4374f95fe540d1ba272ac |
---|---|
oai_identifier_str |
tesis:tesis_n7357_Cordoba |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Generación de resúmenes de texto en españolGeneration of text summaries in spanishCórdoba, Leonardo IgnacioRESUMEN ABSTRACTOPROCESAMIENTO DEL LENGUAJE NATURALGENERACION DE TEXTOABSTRACT SUMMARYTEXT GENERATIONTRANSFORMERSCOMMON CRAWLEn los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual.In the last few years there has been several advances in text generation tasks. Especially, the development and generalization of pretrained models allows the training of models for specialized tasks -a.k.a. downstream tasks- at low computational cost. On the other hand, abstract text summarization is a task for which relatively few data sets are available in Spanish. For this reason, this work focuses on the training of machine learning models for summarization in Spanish and the construction of appropriate datasets for this task. As part of it, 5 models trained from architectures based on Transformers and 2 data sets obtained from Common Crawl are available. Additionally, automatically calculated metrics are compared to scores obtained through manual tagging.Fil: Córdoba, Leonardo Ignacio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesLombardi, Leandro Ezequiel2022-08-17info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n7357_Cordobaspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:42:06Ztesis:tesis_n7357_CordobaInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:42:07.083Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Generación de resúmenes de texto en español Generation of text summaries in spanish |
title |
Generación de resúmenes de texto en español |
spellingShingle |
Generación de resúmenes de texto en español Córdoba, Leonardo Ignacio RESUMEN ABSTRACTO PROCESAMIENTO DEL LENGUAJE NATURAL GENERACION DE TEXTO ABSTRACT SUMMARY TEXT GENERATION TRANSFORMERS COMMON CRAWL |
title_short |
Generación de resúmenes de texto en español |
title_full |
Generación de resúmenes de texto en español |
title_fullStr |
Generación de resúmenes de texto en español |
title_full_unstemmed |
Generación de resúmenes de texto en español |
title_sort |
Generación de resúmenes de texto en español |
dc.creator.none.fl_str_mv |
Córdoba, Leonardo Ignacio |
author |
Córdoba, Leonardo Ignacio |
author_facet |
Córdoba, Leonardo Ignacio |
author_role |
author |
dc.contributor.none.fl_str_mv |
Lombardi, Leandro Ezequiel |
dc.subject.none.fl_str_mv |
RESUMEN ABSTRACTO PROCESAMIENTO DEL LENGUAJE NATURAL GENERACION DE TEXTO ABSTRACT SUMMARY TEXT GENERATION TRANSFORMERS COMMON CRAWL |
topic |
RESUMEN ABSTRACTO PROCESAMIENTO DEL LENGUAJE NATURAL GENERACION DE TEXTO ABSTRACT SUMMARY TEXT GENERATION TRANSFORMERS COMMON CRAWL |
dc.description.none.fl_txt_mv |
En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual. In the last few years there has been several advances in text generation tasks. Especially, the development and generalization of pretrained models allows the training of models for specialized tasks -a.k.a. downstream tasks- at low computational cost. On the other hand, abstract text summarization is a task for which relatively few data sets are available in Spanish. For this reason, this work focuses on the training of machine learning models for summarization in Spanish and the construction of appropriate datasets for this task. As part of it, 5 models trained from architectures based on Transformers and 2 data sets obtained from Common Crawl are available. Additionally, automatically calculated metrics are compared to scores obtained through manual tagging. Fil: Córdoba, Leonardo Ignacio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-08-17 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/masterThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_bdcc info:ar-repo/semantics/tesisDeMaestria |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba |
url |
https://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1844618719108530176 |
score |
13.070432 |