Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings

Autores
Tejerina, Maximiliano Ezequiel
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Domínguez, Martín Ariel
Matta, Andrés
Descripción
Tesis (Lic. en Física)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.
Fil: Tejerina, Maximiliano Ezequiel. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
Este trabajo tiene como objetivo el análisis del discurso de dos diarios argentinos La Nación y Página 12, intentando capturar el comportamiento de dos editoriales con opiniones políticas antagónicas. Para lograr el análisis se recopilaron notas periodísticas de ambas fuentes, que traten el tema de la “Reforma Laboral”, desde el año 1995 al 2021. Con este conjunto de artículos, se separó en períodos presidenciales, y se utilizaron herramientas de extracción de temas, para analizar la manera en que cada editorial trata el tema elegido. Adicionalmente, se utilizaron técnicas de “word embeddings” para analizar la distancia entre ambos discursos en los diferentes períodos temporales.. Para llevar a cabo la tarea, se evaluaron tres modelos de aprendizaje automático con múltiples configuraciones, con el objetivo de encontrar así el mejor rendimiento. En este sentido, en una primera instancia, con técnicas de Procesamiento de Lenguaje Natural aplicadas sobre el contenido de los artículos, se capturó la tematización y limpieza del texto. En una segunda instancia se logró inferir un modelo LDA (Latent Dirichlet Allocation) en dos librerías de python. Luego, construimos los “word embeddings” utilizando Fasttext para poder obtener las distancias entre las opiniones de ambos diarios. Del análisis de los resultados obtenidos por LDA para la detección de tópicos se concluyó que, debido a la tipología de los artículos, los resultados no eran satisfactorios. Para solucionar este problema, se exploró otra técnica, Top2Vec. Los resultados obtenidos con esta nueva técnica, fueron satisfactorios, y permitieron identificar algunas particularidades en el tratamiento de las temáticas en cada periódico, las que pueden ser asociadas a agendas y marcos interpretativos diferentes.
This work aims to analyze the discourse of two Argentine newspapers La Nación and Página 12, trying to capture the behavior of two editorials with antagonistic political opinions. To achieve the analysis, journalistic notes from both sources were compiled, which deal with the issue of the "Labor Reform", from the year 1995 to 2021. With this set of articles, it was separated into presidential periods, and topic extraction tools were used to analyze the way in which each editorial deals with the chosen topic. Additionally, "word embeddings" techniques were used to analyze the distance between both discourses in the different time periods. To carry out the task, three machine learning models with multiple configurations were evaluated, with the aim of finding the best performance. In this sense, in the first instance, with Natural Language Processing techniques applied to the content of the articles, the thematization and cleanliness of the text was captured. In a second instance, it was possible to infer an LDA (Latent Dirichlet Allocation) model in two python libraries, Then, we build the "word embeddings" using Fasttext in order to obtain the distances between the opinions of both newspapers. From the analysis of the results obtained by LDA for the detection of topics, it was concluded that, due to the type of articles, the results were not satisfactory. To solve this problem, another technique, Top2Vec, was explored. The results obtained with this new technique were satisfactory, and allowed to identify some particularities in the treatment of the themes in each newspaper, which can be associated with different agendas and interpretive frameworks.
Fil: Tejerina, Maximiliano Ezequiel. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
Materia
Reforma laboral
Tópicos de diarios
Distancia euclidiana de dos diarios
LDA sobre diarios
Embeddings de diarios
Latent Dirichlet allocation
Word embeddings
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Repositorio
Repositorio Digital Universitario (UNC)
Institución
Universidad Nacional de Córdoba
OAI Identificador
oai:rdu.unc.edu.ar:11086/549596

id RDUUNC_71fbbf2ed8014d6bacea27191d6f9903
oai_identifier_str oai:rdu.unc.edu.ar:11086/549596
network_acronym_str RDUUNC
repository_id_str 2572
network_name_str Repositorio Digital Universitario (UNC)
spelling Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddingsTejerina, Maximiliano EzequielReforma laboralTópicos de diariosDistancia euclidiana de dos diariosLDA sobre diariosEmbeddings de diariosLatent Dirichlet allocationWord embeddingsTesis (Lic. en Física)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.Fil: Tejerina, Maximiliano Ezequiel. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.Este trabajo tiene como objetivo el análisis del discurso de dos diarios argentinos La Nación y Página 12, intentando capturar el comportamiento de dos editoriales con opiniones políticas antagónicas. Para lograr el análisis se recopilaron notas periodísticas de ambas fuentes, que traten el tema de la “Reforma Laboral”, desde el año 1995 al 2021. Con este conjunto de artículos, se separó en períodos presidenciales, y se utilizaron herramientas de extracción de temas, para analizar la manera en que cada editorial trata el tema elegido. Adicionalmente, se utilizaron técnicas de “word embeddings” para analizar la distancia entre ambos discursos en los diferentes períodos temporales.. Para llevar a cabo la tarea, se evaluaron tres modelos de aprendizaje automático con múltiples configuraciones, con el objetivo de encontrar así el mejor rendimiento. En este sentido, en una primera instancia, con técnicas de Procesamiento de Lenguaje Natural aplicadas sobre el contenido de los artículos, se capturó la tematización y limpieza del texto. En una segunda instancia se logró inferir un modelo LDA (Latent Dirichlet Allocation) en dos librerías de python. Luego, construimos los “word embeddings” utilizando Fasttext para poder obtener las distancias entre las opiniones de ambos diarios. Del análisis de los resultados obtenidos por LDA para la detección de tópicos se concluyó que, debido a la tipología de los artículos, los resultados no eran satisfactorios. Para solucionar este problema, se exploró otra técnica, Top2Vec. Los resultados obtenidos con esta nueva técnica, fueron satisfactorios, y permitieron identificar algunas particularidades en el tratamiento de las temáticas en cada periódico, las que pueden ser asociadas a agendas y marcos interpretativos diferentes.This work aims to analyze the discourse of two Argentine newspapers La Nación and Página 12, trying to capture the behavior of two editorials with antagonistic political opinions. To achieve the analysis, journalistic notes from both sources were compiled, which deal with the issue of the "Labor Reform", from the year 1995 to 2021. With this set of articles, it was separated into presidential periods, and topic extraction tools were used to analyze the way in which each editorial deals with the chosen topic. Additionally, "word embeddings" techniques were used to analyze the distance between both discourses in the different time periods. To carry out the task, three machine learning models with multiple configurations were evaluated, with the aim of finding the best performance. In this sense, in the first instance, with Natural Language Processing techniques applied to the content of the articles, the thematization and cleanliness of the text was captured. In a second instance, it was possible to infer an LDA (Latent Dirichlet Allocation) model in two python libraries, Then, we build the "word embeddings" using Fasttext in order to obtain the distances between the opinions of both newspapers. From the analysis of the results obtained by LDA for the detection of topics, it was concluded that, due to the type of articles, the results were not satisfactory. To solve this problem, another technique, Top2Vec, was explored. The results obtained with this new technique were satisfactory, and allowed to identify some particularities in the treatment of the themes in each newspaper, which can be associated with different agendas and interpretive frameworks.Fil: Tejerina, Maximiliano Ezequiel. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.Domínguez, Martín ArielMatta, Andrés2023info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://hdl.handle.net/11086/549596spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2025-09-29T13:43:23Zoai:rdu.unc.edu.ar:11086/549596Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722025-09-29 13:43:23.552Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
title Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
spellingShingle Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
Tejerina, Maximiliano Ezequiel
Reforma laboral
Tópicos de diarios
Distancia euclidiana de dos diarios
LDA sobre diarios
Embeddings de diarios
Latent Dirichlet allocation
Word embeddings
title_short Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
title_full Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
title_fullStr Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
title_full_unstemmed Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
title_sort Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
dc.creator.none.fl_str_mv Tejerina, Maximiliano Ezequiel
author Tejerina, Maximiliano Ezequiel
author_facet Tejerina, Maximiliano Ezequiel
author_role author
dc.contributor.none.fl_str_mv Domínguez, Martín Ariel
Matta, Andrés
dc.subject.none.fl_str_mv Reforma laboral
Tópicos de diarios
Distancia euclidiana de dos diarios
LDA sobre diarios
Embeddings de diarios
Latent Dirichlet allocation
Word embeddings
topic Reforma laboral
Tópicos de diarios
Distancia euclidiana de dos diarios
LDA sobre diarios
Embeddings de diarios
Latent Dirichlet allocation
Word embeddings
dc.description.none.fl_txt_mv Tesis (Lic. en Física)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.
Fil: Tejerina, Maximiliano Ezequiel. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
Este trabajo tiene como objetivo el análisis del discurso de dos diarios argentinos La Nación y Página 12, intentando capturar el comportamiento de dos editoriales con opiniones políticas antagónicas. Para lograr el análisis se recopilaron notas periodísticas de ambas fuentes, que traten el tema de la “Reforma Laboral”, desde el año 1995 al 2021. Con este conjunto de artículos, se separó en períodos presidenciales, y se utilizaron herramientas de extracción de temas, para analizar la manera en que cada editorial trata el tema elegido. Adicionalmente, se utilizaron técnicas de “word embeddings” para analizar la distancia entre ambos discursos en los diferentes períodos temporales.. Para llevar a cabo la tarea, se evaluaron tres modelos de aprendizaje automático con múltiples configuraciones, con el objetivo de encontrar así el mejor rendimiento. En este sentido, en una primera instancia, con técnicas de Procesamiento de Lenguaje Natural aplicadas sobre el contenido de los artículos, se capturó la tematización y limpieza del texto. En una segunda instancia se logró inferir un modelo LDA (Latent Dirichlet Allocation) en dos librerías de python. Luego, construimos los “word embeddings” utilizando Fasttext para poder obtener las distancias entre las opiniones de ambos diarios. Del análisis de los resultados obtenidos por LDA para la detección de tópicos se concluyó que, debido a la tipología de los artículos, los resultados no eran satisfactorios. Para solucionar este problema, se exploró otra técnica, Top2Vec. Los resultados obtenidos con esta nueva técnica, fueron satisfactorios, y permitieron identificar algunas particularidades en el tratamiento de las temáticas en cada periódico, las que pueden ser asociadas a agendas y marcos interpretativos diferentes.
This work aims to analyze the discourse of two Argentine newspapers La Nación and Página 12, trying to capture the behavior of two editorials with antagonistic political opinions. To achieve the analysis, journalistic notes from both sources were compiled, which deal with the issue of the "Labor Reform", from the year 1995 to 2021. With this set of articles, it was separated into presidential periods, and topic extraction tools were used to analyze the way in which each editorial deals with the chosen topic. Additionally, "word embeddings" techniques were used to analyze the distance between both discourses in the different time periods. To carry out the task, three machine learning models with multiple configurations were evaluated, with the aim of finding the best performance. In this sense, in the first instance, with Natural Language Processing techniques applied to the content of the articles, the thematization and cleanliness of the text was captured. In a second instance, it was possible to infer an LDA (Latent Dirichlet Allocation) model in two python libraries, Then, we build the "word embeddings" using Fasttext in order to obtain the distances between the opinions of both newspapers. From the analysis of the results obtained by LDA for the detection of topics, it was concluded that, due to the type of articles, the results were not satisfactory. To solve this problem, another technique, Top2Vec, was explored. The results obtained with this new technique were satisfactory, and allowed to identify some particularities in the treatment of the themes in each newspaper, which can be associated with different agendas and interpretive frameworks.
Fil: Tejerina, Maximiliano Ezequiel. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
description Tesis (Lic. en Física)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.
publishDate 2023
dc.date.none.fl_str_mv 2023
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11086/549596
url http://hdl.handle.net/11086/549596
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositorio Digital Universitario (UNC)
instname:Universidad Nacional de Córdoba
instacron:UNC
reponame_str Repositorio Digital Universitario (UNC)
collection Repositorio Digital Universitario (UNC)
instname_str Universidad Nacional de Córdoba
instacron_str UNC
institution UNC
repository.name.fl_str_mv Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv oca.unc@gmail.com
_version_ 1844618954532716544
score 13.069144