Análisis de las dimensiones políticas y temporales a través del lenguaje
- Autores
- Demarco, Franco
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Feuerstein, Esteban Zindel
Ortiz de Zárate, Juan Manuel - Descripción
- Este trabajo se centra en el análisis de dimensiones político-partidarias y temporales mediante el uso de modelos de representación de palabras estáticas y contextuales. Presentamos un nuevo método para evaluar la capacidad de estos modelos para capturar información político-partidaria y temporal, utilizando como corpus de texto publicaciones de comunidades online angloparlantes y discursos presidenciales de EE. UU.. El objetivo principal es identificar orientaciones político-partidarias y aspectos temporales implícitos en el lenguaje, así como evaluar la capacidad de los modelos para representar estas dimensiones. Para esto, vamos a utilizar dos métodos recientes d-ness scoring y el método de aumento, basados en trabajos previos [61, 6]. El d-ness scoring proyecta un texto en una dimensión d mediante pares semilla que difieren únicamente en dicha dimensión. Para mejorar la precisión del análisis, se emplean múltiples pares semilla, obteniendo representaciones más robustas de d. Cuando la definición de múltiples pares semilla se vuelve una tarea compleja, se aplica el método de aumento para generar automáticamente nuevos pares semilla alineados con una dirección inicial, evitando la necesidad de definir manualmente pares adicionales. Con respecto a la dimensión político-partidaria, se hizo un análisis comparativo entre los d-ness scores obtenidos con nuestra técnica y los puntajes obtenidos a partir de embeddings de comunidades basados en interacciones. La idea es comprobar la correlación entre ambas puntuaciones y, al mismo tiempo, validar cuantitativamente la calidad de los resultados obtenidos. Los modelos de representación de palabras contextuales logran capturar de manera efectiva la dimensión política, superando de manera consistente a los modelos de representación estática, alcanzando hasta un AUC ROC de 0.86 al momento de clasificar comunidades en base a su orientación político-partidaria. Los resultados indican que los patrones de interacción y el lenguaje empleado por los usuarios reflejan orientaciones políticas subyacentes, lo cual coincide con hallazgos previos en la literatura. Con respecto a la dimensión temporal, se evaluó la capacidad de distintos modelos de representación de palabras contextuales para capturar información temporal. En particular, se midió la capacidad de estos modelos para ordenar los discursos presidenciales de EE. UU. según su fecha de emisión, utilizando únicamente los d-ness scores obtenidos. Esto nos permitió comprobar que los modelos contextuales basados en transformers logran codificar información temporal directamente en los embeddings generados, mostrando una correlación significativa entre las proyecciones temporales de los embeddings y la fecha de creación de los textos, alcanzando un coeficiente de Kendall τ de hasta 0.87.
This work focuses on the analysis of political-partisan and temporal dimensions through the use of static and contextual word representation models. We present a new method to evaluate the ability of these models to capture political-partisan and temporal information, using as text corpora publications from English-speaking online communities and U.S. presidential speeches. The main goal is to identify political-partisan orientations and implicit temporal aspects in language, as well as to assess the models’ ability to represent these dimensions. To this end, we will use two recently developed methods d-ness scoring and the augmentation method, based on previous works [61, 6]. d-ness scoring projects a text onto a dimension d using seed pairs that differ only in that dimension. To improve the precision of the analysis, multiple seed pairs are used, obtaining more robust representations of d. When defining multiple seed pairs becomes a complex task, the augmentation method is applied to automatically generate new seed pairs aligned with an initial direction, thus avoiding the need to manually define additional pairs. Regarding the political-partisan dimension, a comparative analysis was made between the d-ness scores obtained using our technique and the scores derived from community embeddings based on interactions. The idea is to check the correlation between both scores and, at the same time, quantitatively validate the quality of the results obtained. Contextual word representation models effectively capture the political dimension, consistently outperforming static representation models, achieving an AUC ROC of up to 0.86 when classifying communities based on their political-partisan orientation. The results indicate that the interaction patterns and language used by users reflect underlying political orientations, which aligns with previous findings in the literature. Concerning the temporal dimension, we evaluated the ability of various contextual word representation models to capture temporal information. Specifically, we measured the models’ ability to rank U.S. presidential speeches based on their release date using only the d-ness scores obtained. This allowed us to verify that contextual models based on transformers are capable of encoding temporal information directly in the generated embeddings, showing a significant correlation between the temporal projections of the embeddings and the texts’ creation dates, achieving a Kendall τ coefficient of up to 0.87.
Fil: Demarco, Franco. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
PLN
LLM
REDES SOCIALES
DISCURSOS
PARTIDISMO
TIEMPO
NLP
LLM
SOCIAL NETWORKS
SPEECHES
PARTIDISM
TIME - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000810_DeMarco
Ver los metadatos del registro completo
id |
BDUBAFCEN_9a3fa0cbc215b6a0862c3d75d8d02195 |
---|---|
oai_identifier_str |
seminario:seminario_nCOM000810_DeMarco |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Análisis de las dimensiones políticas y temporales a través del lenguajeTemporal and political dimensions analysis through languageDemarco, FrancoPLNLLMREDES SOCIALESDISCURSOSPARTIDISMOTIEMPONLPLLMSOCIAL NETWORKSSPEECHESPARTIDISMTIMEEste trabajo se centra en el análisis de dimensiones político-partidarias y temporales mediante el uso de modelos de representación de palabras estáticas y contextuales. Presentamos un nuevo método para evaluar la capacidad de estos modelos para capturar información político-partidaria y temporal, utilizando como corpus de texto publicaciones de comunidades online angloparlantes y discursos presidenciales de EE. UU.. El objetivo principal es identificar orientaciones político-partidarias y aspectos temporales implícitos en el lenguaje, así como evaluar la capacidad de los modelos para representar estas dimensiones. Para esto, vamos a utilizar dos métodos recientes d-ness scoring y el método de aumento, basados en trabajos previos [61, 6]. El d-ness scoring proyecta un texto en una dimensión d mediante pares semilla que difieren únicamente en dicha dimensión. Para mejorar la precisión del análisis, se emplean múltiples pares semilla, obteniendo representaciones más robustas de d. Cuando la definición de múltiples pares semilla se vuelve una tarea compleja, se aplica el método de aumento para generar automáticamente nuevos pares semilla alineados con una dirección inicial, evitando la necesidad de definir manualmente pares adicionales. Con respecto a la dimensión político-partidaria, se hizo un análisis comparativo entre los d-ness scores obtenidos con nuestra técnica y los puntajes obtenidos a partir de embeddings de comunidades basados en interacciones. La idea es comprobar la correlación entre ambas puntuaciones y, al mismo tiempo, validar cuantitativamente la calidad de los resultados obtenidos. Los modelos de representación de palabras contextuales logran capturar de manera efectiva la dimensión política, superando de manera consistente a los modelos de representación estática, alcanzando hasta un AUC ROC de 0.86 al momento de clasificar comunidades en base a su orientación político-partidaria. Los resultados indican que los patrones de interacción y el lenguaje empleado por los usuarios reflejan orientaciones políticas subyacentes, lo cual coincide con hallazgos previos en la literatura. Con respecto a la dimensión temporal, se evaluó la capacidad de distintos modelos de representación de palabras contextuales para capturar información temporal. En particular, se midió la capacidad de estos modelos para ordenar los discursos presidenciales de EE. UU. según su fecha de emisión, utilizando únicamente los d-ness scores obtenidos. Esto nos permitió comprobar que los modelos contextuales basados en transformers logran codificar información temporal directamente en los embeddings generados, mostrando una correlación significativa entre las proyecciones temporales de los embeddings y la fecha de creación de los textos, alcanzando un coeficiente de Kendall τ de hasta 0.87.This work focuses on the analysis of political-partisan and temporal dimensions through the use of static and contextual word representation models. We present a new method to evaluate the ability of these models to capture political-partisan and temporal information, using as text corpora publications from English-speaking online communities and U.S. presidential speeches. The main goal is to identify political-partisan orientations and implicit temporal aspects in language, as well as to assess the models’ ability to represent these dimensions. To this end, we will use two recently developed methods d-ness scoring and the augmentation method, based on previous works [61, 6]. d-ness scoring projects a text onto a dimension d using seed pairs that differ only in that dimension. To improve the precision of the analysis, multiple seed pairs are used, obtaining more robust representations of d. When defining multiple seed pairs becomes a complex task, the augmentation method is applied to automatically generate new seed pairs aligned with an initial direction, thus avoiding the need to manually define additional pairs. Regarding the political-partisan dimension, a comparative analysis was made between the d-ness scores obtained using our technique and the scores derived from community embeddings based on interactions. The idea is to check the correlation between both scores and, at the same time, quantitatively validate the quality of the results obtained. Contextual word representation models effectively capture the political dimension, consistently outperforming static representation models, achieving an AUC ROC of up to 0.86 when classifying communities based on their political-partisan orientation. The results indicate that the interaction patterns and language used by users reflect underlying political orientations, which aligns with previous findings in the literature. Concerning the temporal dimension, we evaluated the ability of various contextual word representation models to capture temporal information. Specifically, we measured the models’ ability to rank U.S. presidential speeches based on their release date using only the d-ness scores obtained. This allowed us to verify that contextual models based on transformers are capable of encoding temporal information directly in the generated embeddings, showing a significant correlation between the temporal projections of the embeddings and the texts’ creation dates, achieving a Kendall τ coefficient of up to 0.87.Fil: Demarco, Franco. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesFeuerstein, Esteban ZindelOrtiz de Zárate, Juan Manuel2025-02-07info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000810_DeMarcospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:34Zseminario:seminario_nCOM000810_DeMarcoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:35.737Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Análisis de las dimensiones políticas y temporales a través del lenguaje Temporal and political dimensions analysis through language |
title |
Análisis de las dimensiones políticas y temporales a través del lenguaje |
spellingShingle |
Análisis de las dimensiones políticas y temporales a través del lenguaje Demarco, Franco PLN LLM REDES SOCIALES DISCURSOS PARTIDISMO TIEMPO NLP LLM SOCIAL NETWORKS SPEECHES PARTIDISM TIME |
title_short |
Análisis de las dimensiones políticas y temporales a través del lenguaje |
title_full |
Análisis de las dimensiones políticas y temporales a través del lenguaje |
title_fullStr |
Análisis de las dimensiones políticas y temporales a través del lenguaje |
title_full_unstemmed |
Análisis de las dimensiones políticas y temporales a través del lenguaje |
title_sort |
Análisis de las dimensiones políticas y temporales a través del lenguaje |
dc.creator.none.fl_str_mv |
Demarco, Franco |
author |
Demarco, Franco |
author_facet |
Demarco, Franco |
author_role |
author |
dc.contributor.none.fl_str_mv |
Feuerstein, Esteban Zindel Ortiz de Zárate, Juan Manuel |
dc.subject.none.fl_str_mv |
PLN LLM REDES SOCIALES DISCURSOS PARTIDISMO TIEMPO NLP LLM SOCIAL NETWORKS SPEECHES PARTIDISM TIME |
topic |
PLN LLM REDES SOCIALES DISCURSOS PARTIDISMO TIEMPO NLP LLM SOCIAL NETWORKS SPEECHES PARTIDISM TIME |
dc.description.none.fl_txt_mv |
Este trabajo se centra en el análisis de dimensiones político-partidarias y temporales mediante el uso de modelos de representación de palabras estáticas y contextuales. Presentamos un nuevo método para evaluar la capacidad de estos modelos para capturar información político-partidaria y temporal, utilizando como corpus de texto publicaciones de comunidades online angloparlantes y discursos presidenciales de EE. UU.. El objetivo principal es identificar orientaciones político-partidarias y aspectos temporales implícitos en el lenguaje, así como evaluar la capacidad de los modelos para representar estas dimensiones. Para esto, vamos a utilizar dos métodos recientes d-ness scoring y el método de aumento, basados en trabajos previos [61, 6]. El d-ness scoring proyecta un texto en una dimensión d mediante pares semilla que difieren únicamente en dicha dimensión. Para mejorar la precisión del análisis, se emplean múltiples pares semilla, obteniendo representaciones más robustas de d. Cuando la definición de múltiples pares semilla se vuelve una tarea compleja, se aplica el método de aumento para generar automáticamente nuevos pares semilla alineados con una dirección inicial, evitando la necesidad de definir manualmente pares adicionales. Con respecto a la dimensión político-partidaria, se hizo un análisis comparativo entre los d-ness scores obtenidos con nuestra técnica y los puntajes obtenidos a partir de embeddings de comunidades basados en interacciones. La idea es comprobar la correlación entre ambas puntuaciones y, al mismo tiempo, validar cuantitativamente la calidad de los resultados obtenidos. Los modelos de representación de palabras contextuales logran capturar de manera efectiva la dimensión política, superando de manera consistente a los modelos de representación estática, alcanzando hasta un AUC ROC de 0.86 al momento de clasificar comunidades en base a su orientación político-partidaria. Los resultados indican que los patrones de interacción y el lenguaje empleado por los usuarios reflejan orientaciones políticas subyacentes, lo cual coincide con hallazgos previos en la literatura. Con respecto a la dimensión temporal, se evaluó la capacidad de distintos modelos de representación de palabras contextuales para capturar información temporal. En particular, se midió la capacidad de estos modelos para ordenar los discursos presidenciales de EE. UU. según su fecha de emisión, utilizando únicamente los d-ness scores obtenidos. Esto nos permitió comprobar que los modelos contextuales basados en transformers logran codificar información temporal directamente en los embeddings generados, mostrando una correlación significativa entre las proyecciones temporales de los embeddings y la fecha de creación de los textos, alcanzando un coeficiente de Kendall τ de hasta 0.87. This work focuses on the analysis of political-partisan and temporal dimensions through the use of static and contextual word representation models. We present a new method to evaluate the ability of these models to capture political-partisan and temporal information, using as text corpora publications from English-speaking online communities and U.S. presidential speeches. The main goal is to identify political-partisan orientations and implicit temporal aspects in language, as well as to assess the models’ ability to represent these dimensions. To this end, we will use two recently developed methods d-ness scoring and the augmentation method, based on previous works [61, 6]. d-ness scoring projects a text onto a dimension d using seed pairs that differ only in that dimension. To improve the precision of the analysis, multiple seed pairs are used, obtaining more robust representations of d. When defining multiple seed pairs becomes a complex task, the augmentation method is applied to automatically generate new seed pairs aligned with an initial direction, thus avoiding the need to manually define additional pairs. Regarding the political-partisan dimension, a comparative analysis was made between the d-ness scores obtained using our technique and the scores derived from community embeddings based on interactions. The idea is to check the correlation between both scores and, at the same time, quantitatively validate the quality of the results obtained. Contextual word representation models effectively capture the political dimension, consistently outperforming static representation models, achieving an AUC ROC of up to 0.86 when classifying communities based on their political-partisan orientation. The results indicate that the interaction patterns and language used by users reflect underlying political orientations, which aligns with previous findings in the literature. Concerning the temporal dimension, we evaluated the ability of various contextual word representation models to capture temporal information. Specifically, we measured the models’ ability to rank U.S. presidential speeches based on their release date using only the d-ness scores obtained. This allowed us to verify that contextual models based on transformers are capable of encoding temporal information directly in the generated embeddings, showing a significant correlation between the temporal projections of the embeddings and the texts’ creation dates, achieving a Kendall τ coefficient of up to 0.87. Fil: Demarco, Franco. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
Este trabajo se centra en el análisis de dimensiones político-partidarias y temporales mediante el uso de modelos de representación de palabras estáticas y contextuales. Presentamos un nuevo método para evaluar la capacidad de estos modelos para capturar información político-partidaria y temporal, utilizando como corpus de texto publicaciones de comunidades online angloparlantes y discursos presidenciales de EE. UU.. El objetivo principal es identificar orientaciones político-partidarias y aspectos temporales implícitos en el lenguaje, así como evaluar la capacidad de los modelos para representar estas dimensiones. Para esto, vamos a utilizar dos métodos recientes d-ness scoring y el método de aumento, basados en trabajos previos [61, 6]. El d-ness scoring proyecta un texto en una dimensión d mediante pares semilla que difieren únicamente en dicha dimensión. Para mejorar la precisión del análisis, se emplean múltiples pares semilla, obteniendo representaciones más robustas de d. Cuando la definición de múltiples pares semilla se vuelve una tarea compleja, se aplica el método de aumento para generar automáticamente nuevos pares semilla alineados con una dirección inicial, evitando la necesidad de definir manualmente pares adicionales. Con respecto a la dimensión político-partidaria, se hizo un análisis comparativo entre los d-ness scores obtenidos con nuestra técnica y los puntajes obtenidos a partir de embeddings de comunidades basados en interacciones. La idea es comprobar la correlación entre ambas puntuaciones y, al mismo tiempo, validar cuantitativamente la calidad de los resultados obtenidos. Los modelos de representación de palabras contextuales logran capturar de manera efectiva la dimensión política, superando de manera consistente a los modelos de representación estática, alcanzando hasta un AUC ROC de 0.86 al momento de clasificar comunidades en base a su orientación político-partidaria. Los resultados indican que los patrones de interacción y el lenguaje empleado por los usuarios reflejan orientaciones políticas subyacentes, lo cual coincide con hallazgos previos en la literatura. Con respecto a la dimensión temporal, se evaluó la capacidad de distintos modelos de representación de palabras contextuales para capturar información temporal. En particular, se midió la capacidad de estos modelos para ordenar los discursos presidenciales de EE. UU. según su fecha de emisión, utilizando únicamente los d-ness scores obtenidos. Esto nos permitió comprobar que los modelos contextuales basados en transformers logran codificar información temporal directamente en los embeddings generados, mostrando una correlación significativa entre las proyecciones temporales de los embeddings y la fecha de creación de los textos, alcanzando un coeficiente de Kendall τ de hasta 0.87. |
publishDate |
2025 |
dc.date.none.fl_str_mv |
2025-02-07 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000810_DeMarco |
url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000810_DeMarco |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1844618754276720640 |
score |
13.070432 |