Análisis de las dimensiones políticas y temporales a través del lenguaje

Autores
Demarco, Franco
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Feuerstein, Esteban Zindel
Ortiz de Zárate, Juan Manuel
Descripción
Este trabajo se centra en el análisis de dimensiones político-partidarias y temporales mediante el uso de modelos de representación de palabras estáticas y contextuales. Presentamos un nuevo método para evaluar la capacidad de estos modelos para capturar información político-partidaria y temporal, utilizando como corpus de texto publicaciones de comunidades online angloparlantes y discursos presidenciales de EE. UU.. El objetivo principal es identificar orientaciones político-partidarias y aspectos temporales implícitos en el lenguaje, así como evaluar la capacidad de los modelos para representar estas dimensiones. Para esto, vamos a utilizar dos métodos recientes d-ness scoring y el método de aumento, basados en trabajos previos [61, 6]. El d-ness scoring proyecta un texto en una dimensión d mediante pares semilla que difieren únicamente en dicha dimensión. Para mejorar la precisión del análisis, se emplean múltiples pares semilla, obteniendo representaciones más robustas de d. Cuando la definición de múltiples pares semilla se vuelve una tarea compleja, se aplica el método de aumento para generar automáticamente nuevos pares semilla alineados con una dirección inicial, evitando la necesidad de definir manualmente pares adicionales. Con respecto a la dimensión político-partidaria, se hizo un análisis comparativo entre los d-ness scores obtenidos con nuestra técnica y los puntajes obtenidos a partir de embeddings de comunidades basados en interacciones. La idea es comprobar la correlación entre ambas puntuaciones y, al mismo tiempo, validar cuantitativamente la calidad de los resultados obtenidos. Los modelos de representación de palabras contextuales logran capturar de manera efectiva la dimensión política, superando de manera consistente a los modelos de representación estática, alcanzando hasta un AUC ROC de 0.86 al momento de clasificar comunidades en base a su orientación político-partidaria. Los resultados indican que los patrones de interacción y el lenguaje empleado por los usuarios reflejan orientaciones políticas subyacentes, lo cual coincide con hallazgos previos en la literatura. Con respecto a la dimensión  temporal, se evaluó la capacidad de distintos modelos de representación de palabras contextuales para capturar información temporal. En particular, se midió la capacidad de estos modelos para ordenar los discursos presidenciales de EE. UU. según su fecha de emisión, utilizando únicamente los d-ness scores obtenidos. Esto nos permitió comprobar que los modelos contextuales basados en transformers logran codificar información temporal directamente en los embeddings generados, mostrando una correlación significativa entre las proyecciones temporales de los embeddings y la fecha de creación de los textos, alcanzando un coeficiente de Kendall τ de hasta 0.87.
This work focuses on the analysis of political-partisan and temporal dimensions through the use of static and contextual word representation models. We present a new method to evaluate the ability of these models to capture political-partisan and temporal information, using as text corpora publications from English-speaking online communities and U.S. presidential speeches. The main goal is to identify political-partisan orientations and implicit temporal aspects in language, as well as to assess the models’ ability to represent these dimensions. To this end, we will use two recently developed methods d-ness scoring and the augmentation method, based on previous works [61, 6]. d-ness scoring projects a text onto a dimension d using seed pairs that differ only in that dimension. To improve the precision of the analysis, multiple seed pairs are used, obtaining more robust representations of d. When defining multiple seed pairs becomes a complex task, the augmentation method is applied to automatically generate new seed pairs aligned with an initial direction, thus avoiding the need to manually define additional pairs. Regarding the political-partisan dimension, a comparative analysis was made between the d-ness scores obtained using our technique and the scores derived from community embeddings based on interactions. The idea is to check the correlation between both scores and, at the same time, quantitatively validate the quality of the results obtained. Contextual word representation models effectively capture the political dimension, consistently outperforming static representation models, achieving an AUC ROC of up to 0.86 when classifying communities based on their political-partisan orientation. The results indicate that the interaction patterns and language used by users reflect underlying political orientations, which aligns with previous findings in the literature. Concerning the temporal dimension, we evaluated the ability of various contextual word representation models to capture temporal information. Specifically, we measured the models’ ability to rank U.S. presidential speeches based on their release date using only the d-ness scores obtained. This allowed us to verify that contextual models based on transformers are capable of encoding temporal information directly in the generated embeddings, showing a significant correlation between the temporal projections of the embeddings and the texts’ creation dates, achieving a Kendall τ coefficient of up to 0.87.
Fil: Demarco, Franco. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
PLN
LLM
REDES SOCIALES
DISCURSOS
PARTIDISMO
TIEMPO
NLP
LLM
SOCIAL NETWORKS
SPEECHES
PARTIDISM
TIME
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000810_DeMarco

id BDUBAFCEN_9a3fa0cbc215b6a0862c3d75d8d02195
oai_identifier_str seminario:seminario_nCOM000810_DeMarco
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Análisis de las dimensiones políticas y temporales a través del lenguajeTemporal and political dimensions analysis through languageDemarco, FrancoPLNLLMREDES SOCIALESDISCURSOSPARTIDISMOTIEMPONLPLLMSOCIAL NETWORKSSPEECHESPARTIDISMTIMEEste trabajo se centra en el análisis de dimensiones político-partidarias y temporales mediante el uso de modelos de representación de palabras estáticas y contextuales. Presentamos un nuevo método para evaluar la capacidad de estos modelos para capturar información político-partidaria y temporal, utilizando como corpus de texto publicaciones de comunidades online angloparlantes y discursos presidenciales de EE. UU.. El objetivo principal es identificar orientaciones político-partidarias y aspectos temporales implícitos en el lenguaje, así como evaluar la capacidad de los modelos para representar estas dimensiones. Para esto, vamos a utilizar dos métodos recientes d-ness scoring y el método de aumento, basados en trabajos previos [61, 6]. El d-ness scoring proyecta un texto en una dimensión d mediante pares semilla que difieren únicamente en dicha dimensión. Para mejorar la precisión del análisis, se emplean múltiples pares semilla, obteniendo representaciones más robustas de d. Cuando la definición de múltiples pares semilla se vuelve una tarea compleja, se aplica el método de aumento para generar automáticamente nuevos pares semilla alineados con una dirección inicial, evitando la necesidad de definir manualmente pares adicionales. Con respecto a la dimensión político-partidaria, se hizo un análisis comparativo entre los d-ness scores obtenidos con nuestra técnica y los puntajes obtenidos a partir de embeddings de comunidades basados en interacciones. La idea es comprobar la correlación entre ambas puntuaciones y, al mismo tiempo, validar cuantitativamente la calidad de los resultados obtenidos. Los modelos de representación de palabras contextuales logran capturar de manera efectiva la dimensión política, superando de manera consistente a los modelos de representación estática, alcanzando hasta un AUC ROC de 0.86 al momento de clasificar comunidades en base a su orientación político-partidaria. Los resultados indican que los patrones de interacción y el lenguaje empleado por los usuarios reflejan orientaciones políticas subyacentes, lo cual coincide con hallazgos previos en la literatura. Con respecto a la dimensión  temporal, se evaluó la capacidad de distintos modelos de representación de palabras contextuales para capturar información temporal. En particular, se midió la capacidad de estos modelos para ordenar los discursos presidenciales de EE. UU. según su fecha de emisión, utilizando únicamente los d-ness scores obtenidos. Esto nos permitió comprobar que los modelos contextuales basados en transformers logran codificar información temporal directamente en los embeddings generados, mostrando una correlación significativa entre las proyecciones temporales de los embeddings y la fecha de creación de los textos, alcanzando un coeficiente de Kendall τ de hasta 0.87.This work focuses on the analysis of political-partisan and temporal dimensions through the use of static and contextual word representation models. We present a new method to evaluate the ability of these models to capture political-partisan and temporal information, using as text corpora publications from English-speaking online communities and U.S. presidential speeches. The main goal is to identify political-partisan orientations and implicit temporal aspects in language, as well as to assess the models’ ability to represent these dimensions. To this end, we will use two recently developed methods d-ness scoring and the augmentation method, based on previous works [61, 6]. d-ness scoring projects a text onto a dimension d using seed pairs that differ only in that dimension. To improve the precision of the analysis, multiple seed pairs are used, obtaining more robust representations of d. When defining multiple seed pairs becomes a complex task, the augmentation method is applied to automatically generate new seed pairs aligned with an initial direction, thus avoiding the need to manually define additional pairs. Regarding the political-partisan dimension, a comparative analysis was made between the d-ness scores obtained using our technique and the scores derived from community embeddings based on interactions. The idea is to check the correlation between both scores and, at the same time, quantitatively validate the quality of the results obtained. Contextual word representation models effectively capture the political dimension, consistently outperforming static representation models, achieving an AUC ROC of up to 0.86 when classifying communities based on their political-partisan orientation. The results indicate that the interaction patterns and language used by users reflect underlying political orientations, which aligns with previous findings in the literature. Concerning the temporal dimension, we evaluated the ability of various contextual word representation models to capture temporal information. Specifically, we measured the models’ ability to rank U.S. presidential speeches based on their release date using only the d-ness scores obtained. This allowed us to verify that contextual models based on transformers are capable of encoding temporal information directly in the generated embeddings, showing a significant correlation between the temporal projections of the embeddings and the texts’ creation dates, achieving a Kendall τ coefficient of up to 0.87.Fil: Demarco, Franco. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesFeuerstein, Esteban ZindelOrtiz de Zárate, Juan Manuel2025-02-07info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000810_DeMarcospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:34Zseminario:seminario_nCOM000810_DeMarcoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:35.737Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Análisis de las dimensiones políticas y temporales a través del lenguaje
Temporal and political dimensions analysis through language
title Análisis de las dimensiones políticas y temporales a través del lenguaje
spellingShingle Análisis de las dimensiones políticas y temporales a través del lenguaje
Demarco, Franco
PLN
LLM
REDES SOCIALES
DISCURSOS
PARTIDISMO
TIEMPO
NLP
LLM
SOCIAL NETWORKS
SPEECHES
PARTIDISM
TIME
title_short Análisis de las dimensiones políticas y temporales a través del lenguaje
title_full Análisis de las dimensiones políticas y temporales a través del lenguaje
title_fullStr Análisis de las dimensiones políticas y temporales a través del lenguaje
title_full_unstemmed Análisis de las dimensiones políticas y temporales a través del lenguaje
title_sort Análisis de las dimensiones políticas y temporales a través del lenguaje
dc.creator.none.fl_str_mv Demarco, Franco
author Demarco, Franco
author_facet Demarco, Franco
author_role author
dc.contributor.none.fl_str_mv Feuerstein, Esteban Zindel
Ortiz de Zárate, Juan Manuel
dc.subject.none.fl_str_mv PLN
LLM
REDES SOCIALES
DISCURSOS
PARTIDISMO
TIEMPO
NLP
LLM
SOCIAL NETWORKS
SPEECHES
PARTIDISM
TIME
topic PLN
LLM
REDES SOCIALES
DISCURSOS
PARTIDISMO
TIEMPO
NLP
LLM
SOCIAL NETWORKS
SPEECHES
PARTIDISM
TIME
dc.description.none.fl_txt_mv Este trabajo se centra en el análisis de dimensiones político-partidarias y temporales mediante el uso de modelos de representación de palabras estáticas y contextuales. Presentamos un nuevo método para evaluar la capacidad de estos modelos para capturar información político-partidaria y temporal, utilizando como corpus de texto publicaciones de comunidades online angloparlantes y discursos presidenciales de EE. UU.. El objetivo principal es identificar orientaciones político-partidarias y aspectos temporales implícitos en el lenguaje, así como evaluar la capacidad de los modelos para representar estas dimensiones. Para esto, vamos a utilizar dos métodos recientes d-ness scoring y el método de aumento, basados en trabajos previos [61, 6]. El d-ness scoring proyecta un texto en una dimensión d mediante pares semilla que difieren únicamente en dicha dimensión. Para mejorar la precisión del análisis, se emplean múltiples pares semilla, obteniendo representaciones más robustas de d. Cuando la definición de múltiples pares semilla se vuelve una tarea compleja, se aplica el método de aumento para generar automáticamente nuevos pares semilla alineados con una dirección inicial, evitando la necesidad de definir manualmente pares adicionales. Con respecto a la dimensión político-partidaria, se hizo un análisis comparativo entre los d-ness scores obtenidos con nuestra técnica y los puntajes obtenidos a partir de embeddings de comunidades basados en interacciones. La idea es comprobar la correlación entre ambas puntuaciones y, al mismo tiempo, validar cuantitativamente la calidad de los resultados obtenidos. Los modelos de representación de palabras contextuales logran capturar de manera efectiva la dimensión política, superando de manera consistente a los modelos de representación estática, alcanzando hasta un AUC ROC de 0.86 al momento de clasificar comunidades en base a su orientación político-partidaria. Los resultados indican que los patrones de interacción y el lenguaje empleado por los usuarios reflejan orientaciones políticas subyacentes, lo cual coincide con hallazgos previos en la literatura. Con respecto a la dimensión  temporal, se evaluó la capacidad de distintos modelos de representación de palabras contextuales para capturar información temporal. En particular, se midió la capacidad de estos modelos para ordenar los discursos presidenciales de EE. UU. según su fecha de emisión, utilizando únicamente los d-ness scores obtenidos. Esto nos permitió comprobar que los modelos contextuales basados en transformers logran codificar información temporal directamente en los embeddings generados, mostrando una correlación significativa entre las proyecciones temporales de los embeddings y la fecha de creación de los textos, alcanzando un coeficiente de Kendall τ de hasta 0.87.
This work focuses on the analysis of political-partisan and temporal dimensions through the use of static and contextual word representation models. We present a new method to evaluate the ability of these models to capture political-partisan and temporal information, using as text corpora publications from English-speaking online communities and U.S. presidential speeches. The main goal is to identify political-partisan orientations and implicit temporal aspects in language, as well as to assess the models’ ability to represent these dimensions. To this end, we will use two recently developed methods d-ness scoring and the augmentation method, based on previous works [61, 6]. d-ness scoring projects a text onto a dimension d using seed pairs that differ only in that dimension. To improve the precision of the analysis, multiple seed pairs are used, obtaining more robust representations of d. When defining multiple seed pairs becomes a complex task, the augmentation method is applied to automatically generate new seed pairs aligned with an initial direction, thus avoiding the need to manually define additional pairs. Regarding the political-partisan dimension, a comparative analysis was made between the d-ness scores obtained using our technique and the scores derived from community embeddings based on interactions. The idea is to check the correlation between both scores and, at the same time, quantitatively validate the quality of the results obtained. Contextual word representation models effectively capture the political dimension, consistently outperforming static representation models, achieving an AUC ROC of up to 0.86 when classifying communities based on their political-partisan orientation. The results indicate that the interaction patterns and language used by users reflect underlying political orientations, which aligns with previous findings in the literature. Concerning the temporal dimension, we evaluated the ability of various contextual word representation models to capture temporal information. Specifically, we measured the models’ ability to rank U.S. presidential speeches based on their release date using only the d-ness scores obtained. This allowed us to verify that contextual models based on transformers are capable of encoding temporal information directly in the generated embeddings, showing a significant correlation between the temporal projections of the embeddings and the texts’ creation dates, achieving a Kendall τ coefficient of up to 0.87.
Fil: Demarco, Franco. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Este trabajo se centra en el análisis de dimensiones político-partidarias y temporales mediante el uso de modelos de representación de palabras estáticas y contextuales. Presentamos un nuevo método para evaluar la capacidad de estos modelos para capturar información político-partidaria y temporal, utilizando como corpus de texto publicaciones de comunidades online angloparlantes y discursos presidenciales de EE. UU.. El objetivo principal es identificar orientaciones político-partidarias y aspectos temporales implícitos en el lenguaje, así como evaluar la capacidad de los modelos para representar estas dimensiones. Para esto, vamos a utilizar dos métodos recientes d-ness scoring y el método de aumento, basados en trabajos previos [61, 6]. El d-ness scoring proyecta un texto en una dimensión d mediante pares semilla que difieren únicamente en dicha dimensión. Para mejorar la precisión del análisis, se emplean múltiples pares semilla, obteniendo representaciones más robustas de d. Cuando la definición de múltiples pares semilla se vuelve una tarea compleja, se aplica el método de aumento para generar automáticamente nuevos pares semilla alineados con una dirección inicial, evitando la necesidad de definir manualmente pares adicionales. Con respecto a la dimensión político-partidaria, se hizo un análisis comparativo entre los d-ness scores obtenidos con nuestra técnica y los puntajes obtenidos a partir de embeddings de comunidades basados en interacciones. La idea es comprobar la correlación entre ambas puntuaciones y, al mismo tiempo, validar cuantitativamente la calidad de los resultados obtenidos. Los modelos de representación de palabras contextuales logran capturar de manera efectiva la dimensión política, superando de manera consistente a los modelos de representación estática, alcanzando hasta un AUC ROC de 0.86 al momento de clasificar comunidades en base a su orientación político-partidaria. Los resultados indican que los patrones de interacción y el lenguaje empleado por los usuarios reflejan orientaciones políticas subyacentes, lo cual coincide con hallazgos previos en la literatura. Con respecto a la dimensión  temporal, se evaluó la capacidad de distintos modelos de representación de palabras contextuales para capturar información temporal. En particular, se midió la capacidad de estos modelos para ordenar los discursos presidenciales de EE. UU. según su fecha de emisión, utilizando únicamente los d-ness scores obtenidos. Esto nos permitió comprobar que los modelos contextuales basados en transformers logran codificar información temporal directamente en los embeddings generados, mostrando una correlación significativa entre las proyecciones temporales de los embeddings y la fecha de creación de los textos, alcanzando un coeficiente de Kendall τ de hasta 0.87.
publishDate 2025
dc.date.none.fl_str_mv 2025-02-07
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000810_DeMarco
url https://hdl.handle.net/20.500.12110/seminario_nCOM000810_DeMarco
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618754276720640
score 13.070432