Análisis de las dimensiones políticas y temporales a través del lenguaje

Autores: Demarco, Franco
Año de publicación: 2025
Idioma: español castellano
Tipo de recurso: tesis de grado
Estado: versión publicada
Colaborador/a o director/a de tesis: Feuerstein, Esteban Zindel
Ortiz de Zárate, Juan Manuel
Descripción: Este trabajo se centra en el análisis de dimensiones político-partidarias y temporales mediante el uso de modelos de representación de palabras estáticas y contextuales. Presentamos un nuevo método para evaluar la capacidad de estos modelos para capturar información político-partidaria y temporal, utilizando como corpus de texto publicaciones de comunidades online angloparlantes y discursos presidenciales de EE. UU. El objetivo principal es identificar orientaciones político-partidarias y aspectos temporales implícitos en el lenguaje, así como evaluar la capacidad de los modelos para representar estas dimensiones. Para esto, vamos a utilizar dos métodos recientes d-ness scoring y el método de aumento, basados en trabajos previos [61, 6]. El d-ness scoring proyecta un texto en una dimensión d mediante pares semilla que difieren únicamente en dicha dimensión. Para mejorar la precisión del análisis, se emplean múltiples pares semilla, obteniendo representaciones más robustas de d. Cuando la definición de múltiples pares semilla se vuelve una tarea compleja, se aplica el método de aumento para generar automáticamente nuevos pares semilla alineados con una dirección inicial, evitando la necesidad de definir manualmente pares adicionales. Con respecto a la dimensión político-partidaria, se hizo un análisis comparativo entre los d-ness scores obtenidos con nuestra técnica y los puntajes obtenidos a partir de embeddings de comunidades basados en interacciones. La idea es comprobar la correlación entre ambas puntuaciones y, al mismo tiempo, validar cuantitativamente la calidad de los resultados obtenidos. Los modelos de representación de palabras contextuales logran capturar de manera efectiva la dimensión política, superando de manera consistente a los modelos de representación estática, alcanzando hasta un AUC ROC de 0.86 al momento de clasificar comunidades en base a su orientación político-partidaria. Los resultados indican que los patrones de interacción y el lenguaje empleado por los usuarios reflejan orientaciones políticas subyacentes, lo cual coincide con hallazgos previos en la literatura. Con respecto a la dimensión temporal, se evaluó la capacidad de distintos modelos de representación de palabras contextuales para capturar información temporal. En particular, se midió la capacidad de estos modelos para ordenar los discursos presidenciales de EE. UU. según su fecha de emisión, utilizando únicamente los d-ness scores obtenidos. Esto nos permitió comprobar que los modelos contextuales basados en transformers logran codificar información temporal directamente en los embeddings generados, mostrando una correlación significativa entre las proyecciones temporales de los embeddings y la fecha de creación de los textos, alcanzando un coeficiente de Kendall τ de hasta 0.87.
This work focuses on the analysis of political-partisan and temporal dimensions through the use of static and contextual word representation models. We present a new method to evaluate the ability of these models to capture political-partisan and temporal information, using as text corpora publications from English-speaking online communities and U.S. presidential speeches. The main goal is to identify political-partisan orientations and implicit temporal aspects in language, as well as to assess the models’ ability to represent these dimensions. To this end, we will use two recently developed methods d-ness scoring and the augmentation method, based on previous works [61, 6]. d-ness scoring projects a text onto a dimension d using seed pairs that differ only in that dimension. To improve the precision of the analysis, multiple seed pairs are used, obtaining more robust representations of d. When defining multiple seed pairs becomes a complex task, the augmentation method is applied to automatically generate new seed pairs aligned with an initial direction, thus avoiding the need to manually define additional pairs. Regarding the political-partisan dimension, a comparative analysis was made between the d-ness scores obtained using our technique and the scores derived from community embeddings based on interactions. The idea is to check the correlation between both scores and, at the same time, quantitatively validate the quality of the results obtained. Contextual word representation models effectively capture the political dimension, consistently outperforming static representation models, achieving an AUC ROC of up to 0.86 when classifying communities based on their political-partisan orientation. The results indicate that the interaction patterns and language used by users reflect underlying political orientations, which aligns with previous findings in the literature. Concerning the temporal dimension, we evaluated the ability of various contextual word representation models to capture temporal information. Specifically, we measured the models’ ability to rank U.S. presidential speeches based on their release date using only the d-ness scores obtained. This allowed us to verify that contextual models based on transformers are capable of encoding temporal information directly in the generated embeddings, showing a significant correlation between the temporal projections of the embeddings and the texts’ creation dates, achieving a Kendall τ coefficient of up to 0.87.
Fil: Demarco, Franco. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia: PLN
LLM
REDES SOCIALES
DISCURSOS
PARTIDISMO
TIEMPO
NLP
LLM
SOCIAL NETWORKS
SPEECHES
PARTIDISM
TIME
Nivel de accesibilidad: acceso abierto
Condiciones de uso: https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Institución: Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador: seminario:seminario_nCOM000810_DeMarco

Acceder

id	BDUBAFCEN_9a3fa0cbc215b6a0862c3d75d8d02195
oai_identifier_str	seminario:seminario_nCOM000810_DeMarco
network_acronym_str	BDUBAFCEN
repository_id_str	1896
network_name_str	Biblioteca Digital (UBA-FCEN)
spelling	Análisis de las dimensiones políticas y temporales a través del lenguajeTemporal and political dimensions analysis through languageDemarco, FrancoPLNLLMREDES SOCIALESDISCURSOSPARTIDISMOTIEMPONLPLLMSOCIAL NETWORKSSPEECHESPARTIDISMTIMEEste trabajo se centra en el análisis de dimensiones político-partidarias y temporales mediante el uso de modelos de representación de palabras estáticas y contextuales. Presentamos un nuevo método para evaluar la capacidad de estos modelos para capturar información político-partidaria y temporal, utilizando como corpus de texto publicaciones de comunidades online angloparlantes y discursos presidenciales de EE. UU. El objetivo principal es identificar orientaciones político-partidarias y aspectos temporales implícitos en el lenguaje, así como evaluar la capacidad de los modelos para representar estas dimensiones. Para esto, vamos a utilizar dos métodos recientes d-ness scoring y el método de aumento, basados en trabajos previos [61, 6]. El d-ness scoring proyecta un texto en una dimensión d mediante pares semilla que difieren únicamente en dicha dimensión. Para mejorar la precisión del análisis, se emplean múltiples pares semilla, obteniendo representaciones más robustas de d. Cuando la definición de múltiples pares semilla se vuelve una tarea compleja, se aplica el método de aumento para generar automáticamente nuevos pares semilla alineados con una dirección inicial, evitando la necesidad de definir manualmente pares adicionales. Con respecto a la dimensión político-partidaria, se hizo un análisis comparativo entre los d-ness scores obtenidos con nuestra técnica y los puntajes obtenidos a partir de embeddings de comunidades basados en interacciones. La idea es comprobar la correlación entre ambas puntuaciones y, al mismo tiempo, validar cuantitativamente la calidad de los resultados obtenidos. Los modelos de representación de palabras contextuales logran capturar de manera efectiva la dimensión política, superando de manera consistente a los modelos de representación estática, alcanzando hasta un AUC ROC de 0.86 al momento de clasificar comunidades en base a su orientación político-partidaria. Los resultados indican que los patrones de interacción y el lenguaje empleado por los usuarios reflejan orientaciones políticas subyacentes, lo cual coincide con hallazgos previos en la literatura. Con respecto a la dimensión temporal, se evaluó la capacidad de distintos modelos de representación de palabras contextuales para capturar información temporal. En particular, se midió la capacidad de estos modelos para ordenar los discursos presidenciales de EE. UU. según su fecha de emisión, utilizando únicamente los d-ness scores obtenidos. Esto nos permitió comprobar que los modelos contextuales basados en transformers logran codificar información temporal directamente en los embeddings generados, mostrando una correlación significativa entre las proyecciones temporales de los embeddings y la fecha de creación de los textos, alcanzando un coeficiente de Kendall τ de hasta 0.87.This work focuses on the analysis of political-partisan and temporal dimensions through the use of static and contextual word representation models. We present a new method to evaluate the ability of these models to capture political-partisan and temporal information, using as text corpora publications from English-speaking online communities and U.S. presidential speeches. The main goal is to identify political-partisan orientations and implicit temporal aspects in language, as well as to assess the models’ ability to represent these dimensions. To this end, we will use two recently developed methods d-ness scoring and the augmentation method, based on previous works [61, 6]. d-ness scoring projects a text onto a dimension d using seed pairs that differ only in that dimension. To improve the precision of the analysis, multiple seed pairs are used, obtaining more robust representations of d. When defining multiple seed pairs becomes a complex task, the augmentation method is applied to automatically generate new seed pairs aligned with an initial direction, thus avoiding the need to manually define additional pairs. Regarding the political-partisan dimension, a comparative analysis was made between the d-ness scores obtained using our technique and the scores derived from community embeddings based on interactions. The idea is to check the correlation between both scores and, at the same time, quantitatively validate the quality of the results obtained. Contextual word representation models effectively capture the political dimension, consistently outperforming static representation models, achieving an AUC ROC of up to 0.86 when classifying communities based on their political-partisan orientation. The results indicate that the interaction patterns and language used by users reflect underlying political orientations, which aligns with previous findings in the literature. Concerning the temporal dimension, we evaluated the ability of various contextual word representation models to capture temporal information. Specifically, we measured the models’ ability to rank U.S. presidential speeches based on their release date using only the d-ness scores obtained. This allowed us to verify that contextual models based on transformers are capable of encoding temporal information directly in the generated embeddings, showing a significant correlation between the temporal projections of the embeddings and the texts’ creation dates, achieving a Kendall τ coefficient of up to 0.87.Fil: Demarco, Franco. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesFeuerstein, Esteban ZindelOrtiz de Zárate, Juan Manuel2025-02-07info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000810_DeMarcospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-05-07T11:48:30Zseminario:seminario_nCOM000810_DeMarcoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-05-07 11:48:33.803Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv	Análisis de las dimensiones políticas y temporales a través del lenguaje Temporal and political dimensions analysis through language
title	Análisis de las dimensiones políticas y temporales a través del lenguaje
spellingShingle	Análisis de las dimensiones políticas y temporales a través del lenguaje Demarco, Franco PLN LLM REDES SOCIALES DISCURSOS PARTIDISMO TIEMPO NLP LLM SOCIAL NETWORKS SPEECHES PARTIDISM TIME
title_short	Análisis de las dimensiones políticas y temporales a través del lenguaje
title_full	Análisis de las dimensiones políticas y temporales a través del lenguaje
title_fullStr	Análisis de las dimensiones políticas y temporales a través del lenguaje
title_full_unstemmed	Análisis de las dimensiones políticas y temporales a través del lenguaje
title_sort	Análisis de las dimensiones políticas y temporales a través del lenguaje
dc.creator.none.fl_str_mv	Demarco, Franco
author	Demarco, Franco
author_facet	Demarco, Franco
author_role	author
dc.contributor.none.fl_str_mv	Feuerstein, Esteban Zindel Ortiz de Zárate, Juan Manuel
dc.subject.none.fl_str_mv	PLN LLM REDES SOCIALES DISCURSOS PARTIDISMO TIEMPO NLP LLM SOCIAL NETWORKS SPEECHES PARTIDISM TIME
topic	PLN LLM REDES SOCIALES DISCURSOS PARTIDISMO TIEMPO NLP LLM SOCIAL NETWORKS SPEECHES PARTIDISM TIME
dc.description.none.fl_txt_mv	Este trabajo se centra en el análisis de dimensiones político-partidarias y temporales mediante el uso de modelos de representación de palabras estáticas y contextuales. Presentamos un nuevo método para evaluar la capacidad de estos modelos para capturar información político-partidaria y temporal, utilizando como corpus de texto publicaciones de comunidades online angloparlantes y discursos presidenciales de EE. UU. El objetivo principal es identificar orientaciones político-partidarias y aspectos temporales implícitos en el lenguaje, así como evaluar la capacidad de los modelos para representar estas dimensiones. Para esto, vamos a utilizar dos métodos recientes d-ness scoring y el método de aumento, basados en trabajos previos [61, 6]. El d-ness scoring proyecta un texto en una dimensión d mediante pares semilla que difieren únicamente en dicha dimensión. Para mejorar la precisión del análisis, se emplean múltiples pares semilla, obteniendo representaciones más robustas de d. Cuando la definición de múltiples pares semilla se vuelve una tarea compleja, se aplica el método de aumento para generar automáticamente nuevos pares semilla alineados con una dirección inicial, evitando la necesidad de definir manualmente pares adicionales. Con respecto a la dimensión político-partidaria, se hizo un análisis comparativo entre los d-ness scores obtenidos con nuestra técnica y los puntajes obtenidos a partir de embeddings de comunidades basados en interacciones. La idea es comprobar la correlación entre ambas puntuaciones y, al mismo tiempo, validar cuantitativamente la calidad de los resultados obtenidos. Los modelos de representación de palabras contextuales logran capturar de manera efectiva la dimensión política, superando de manera consistente a los modelos de representación estática, alcanzando hasta un AUC ROC de 0.86 al momento de clasificar comunidades en base a su orientación político-partidaria. Los resultados indican que los patrones de interacción y el lenguaje empleado por los usuarios reflejan orientaciones políticas subyacentes, lo cual coincide con hallazgos previos en la literatura. Con respecto a la dimensión temporal, se evaluó la capacidad de distintos modelos de representación de palabras contextuales para capturar información temporal. En particular, se midió la capacidad de estos modelos para ordenar los discursos presidenciales de EE. UU. según su fecha de emisión, utilizando únicamente los d-ness scores obtenidos. Esto nos permitió comprobar que los modelos contextuales basados en transformers logran codificar información temporal directamente en los embeddings generados, mostrando una correlación significativa entre las proyecciones temporales de los embeddings y la fecha de creación de los textos, alcanzando un coeficiente de Kendall τ de hasta 0.87. This work focuses on the analysis of political-partisan and temporal dimensions through the use of static and contextual word representation models. We present a new method to evaluate the ability of these models to capture political-partisan and temporal information, using as text corpora publications from English-speaking online communities and U.S. presidential speeches. The main goal is to identify political-partisan orientations and implicit temporal aspects in language, as well as to assess the models’ ability to represent these dimensions. To this end, we will use two recently developed methods d-ness scoring and the augmentation method, based on previous works [61, 6]. d-ness scoring projects a text onto a dimension d using seed pairs that differ only in that dimension. To improve the precision of the analysis, multiple seed pairs are used, obtaining more robust representations of d. When defining multiple seed pairs becomes a complex task, the augmentation method is applied to automatically generate new seed pairs aligned with an initial direction, thus avoiding the need to manually define additional pairs. Regarding the political-partisan dimension, a comparative analysis was made between the d-ness scores obtained using our technique and the scores derived from community embeddings based on interactions. The idea is to check the correlation between both scores and, at the same time, quantitatively validate the quality of the results obtained. Contextual word representation models effectively capture the political dimension, consistently outperforming static representation models, achieving an AUC ROC of up to 0.86 when classifying communities based on their political-partisan orientation. The results indicate that the interaction patterns and language used by users reflect underlying political orientations, which aligns with previous findings in the literature. Concerning the temporal dimension, we evaluated the ability of various contextual word representation models to capture temporal information. Specifically, we measured the models’ ability to rank U.S. presidential speeches based on their release date using only the d-ness scores obtained. This allowed us to verify that contextual models based on transformers are capable of encoding temporal information directly in the generated embeddings, showing a significant correlation between the temporal projections of the embeddings and the texts’ creation dates, achieving a Kendall τ coefficient of up to 0.87. Fil: Demarco, Franco. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description	Este trabajo se centra en el análisis de dimensiones político-partidarias y temporales mediante el uso de modelos de representación de palabras estáticas y contextuales. Presentamos un nuevo método para evaluar la capacidad de estos modelos para capturar información político-partidaria y temporal, utilizando como corpus de texto publicaciones de comunidades online angloparlantes y discursos presidenciales de EE. UU. El objetivo principal es identificar orientaciones político-partidarias y aspectos temporales implícitos en el lenguaje, así como evaluar la capacidad de los modelos para representar estas dimensiones. Para esto, vamos a utilizar dos métodos recientes d-ness scoring y el método de aumento, basados en trabajos previos [61, 6]. El d-ness scoring proyecta un texto en una dimensión d mediante pares semilla que difieren únicamente en dicha dimensión. Para mejorar la precisión del análisis, se emplean múltiples pares semilla, obteniendo representaciones más robustas de d. Cuando la definición de múltiples pares semilla se vuelve una tarea compleja, se aplica el método de aumento para generar automáticamente nuevos pares semilla alineados con una dirección inicial, evitando la necesidad de definir manualmente pares adicionales. Con respecto a la dimensión político-partidaria, se hizo un análisis comparativo entre los d-ness scores obtenidos con nuestra técnica y los puntajes obtenidos a partir de embeddings de comunidades basados en interacciones. La idea es comprobar la correlación entre ambas puntuaciones y, al mismo tiempo, validar cuantitativamente la calidad de los resultados obtenidos. Los modelos de representación de palabras contextuales logran capturar de manera efectiva la dimensión política, superando de manera consistente a los modelos de representación estática, alcanzando hasta un AUC ROC de 0.86 al momento de clasificar comunidades en base a su orientación político-partidaria. Los resultados indican que los patrones de interacción y el lenguaje empleado por los usuarios reflejan orientaciones políticas subyacentes, lo cual coincide con hallazgos previos en la literatura. Con respecto a la dimensión temporal, se evaluó la capacidad de distintos modelos de representación de palabras contextuales para capturar información temporal. En particular, se midió la capacidad de estos modelos para ordenar los discursos presidenciales de EE. UU. según su fecha de emisión, utilizando únicamente los d-ness scores obtenidos. Esto nos permitió comprobar que los modelos contextuales basados en transformers logran codificar información temporal directamente en los embeddings generados, mostrando una correlación significativa entre las proyecciones temporales de los embeddings y la fecha de creación de los textos, alcanzando un coeficiente de Kendall τ de hasta 0.87.
publishDate	2025
dc.date.none.fl_str_mv	2025-02-07
dc.type.none.fl_str_mv	info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado
format	bachelorThesis
status_str	publishedVersion
dc.identifier.none.fl_str_mv	https://hdl.handle.net/20.500.12110/seminario_nCOM000810_DeMarco
url	https://hdl.handle.net/20.500.12110/seminario_nCOM000810_DeMarco
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv	openAccess
rights_invalid_str_mv	https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv	reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN
reponame_str	Biblioteca Digital (UBA-FCEN)
collection	Biblioteca Digital (UBA-FCEN)
instname_str	Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str	UBA-FCEN
institution	UBA-FCEN
repository.name.fl_str_mv	Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv	ana@bl.fcen.uba.ar
_version_	1864545670786973697
score	12.637756

Análisis de las dimensiones políticas y temporales a través del lenguaje

Publicaciones similares