Cuantificando la diversidad cultural en redes sociales : un enfoque de embeddings de comunidades

Autores
Oppenheim, Abi
Año de publicación
2024
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Feuerstein, Esteban Zindel
Albanese, Federico
Descripción
Los avances en el análisis de redes sociales y técnicas de procesamiento de lenguaje natural (PLN) han mejorado nuestra comprensión de las dinámicas intercomunitarias y sus impactos. Este trabajo introduce una métrica novedosa que cuantifica la diversidad social y cultural dentro de comunidades online, con el propósito de examinar su relación con la toxicidad en las interacciones de los usuarios. Nuestro método se diferencia de enfoques previos al emplear embeddings de usuarios y comunidades generados a partir de vastos volúmenes de datos de Reddit, capturando dimensiones culturales e ideológicas de manera precisa. Asignamos un puntaje de diversidad tanto a nivel individual como comunitario, y lo comparamos con el puntaje de Generalismo-Especialismo (GS), mostrando cómo cada uno aporta información complementaria sobre las interacciones y la diversidad temática en el ecosistema digital. La métrica de diversidad propuesta tiene valor intrínseco, ya que permite caracterizar y segmentar comunidades según su composición social, identificando patrones de homogeneidad o heterogeneidad que impactan en la cohesión y resiliencia comunitaria. Este puntaje de diversidad se convierte en una herramienta valiosa para la investigación y la gesti ́on de comunidades, ya que posibilita la evaluación comparativa de grupos, incluso en ausencia de indicadores de toxicidad, y puede informar políticas de moderación y estrategias de dise ̃no de plataformas. Nuestro an ́alisis emplea modelos PLN para evaluar el contenido conversacional y correlacionarlo con los puntajes de diversidad, aportando un enfoque integral al estudio de las interacciones en entornos digitales. Este trabajo contribuye tanto a la teor ́ıa de la interacci ́on online como a la pr ́actica, proporcionando bases para mejorar la moderaci ́on y fomentar espacios digitales m ́as inclusivos y respetuosos.
Recent advances in social network analysis and natural language processing (NLP) techniques have allowed for a better understanding of inter-community dynamics and their impacts. In this work, we propose a novel metric to quantify social and cultural diversity in online communities, aiming to study its relationship with toxicity in user interactions. Unlike previous approaches, our method employs user and community embeddings generated from large volumes of Reddit data, which accurately capture cultural and ideological dimensions. We assign a social diversity score to both users and communities, comparing this diversity with the Generalism-Specialism (GS) score to demonstrate how each provides complementary information about interaction dynamics and thematic diversity. Finally, our analysis utilizes NLP models to evaluate the content of conversations and correlate it with diversity scores. This work contributes not only to research on digital interactions but also to the implementation of better moderation strategies, helping to create more inclusive and respectful online spaces.
Fil: Oppenheim, Abi. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
DIVERSIDAD SOCIAL
TOXICIDAD
REDDIT
EMBEDDING DE COMUNIDADES
MACHINE LEARNING
SOCIAL DIVERSITY
TOXICITY
REDDIT
COMMUNITY EMBEDDING
MACHINE LEARNING
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000820_Oppenheim

id BDUBAFCEN_33640659e29bd0dd37954eb055e3757e
oai_identifier_str seminario:seminario_nCOM000820_Oppenheim
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Cuantificando la diversidad cultural en redes sociales : un enfoque de embeddings de comunidadesQuantifying cultural diversity in social networks : a community embedding approachOppenheim, AbiDIVERSIDAD SOCIALTOXICIDADREDDITEMBEDDING DE COMUNIDADESMACHINE LEARNINGSOCIAL DIVERSITYTOXICITYREDDITCOMMUNITY EMBEDDINGMACHINE LEARNINGLos avances en el análisis de redes sociales y técnicas de procesamiento de lenguaje natural (PLN) han mejorado nuestra comprensión de las dinámicas intercomunitarias y sus impactos. Este trabajo introduce una métrica novedosa que cuantifica la diversidad social y cultural dentro de comunidades online, con el propósito de examinar su relación con la toxicidad en las interacciones de los usuarios. Nuestro método se diferencia de enfoques previos al emplear embeddings de usuarios y comunidades generados a partir de vastos volúmenes de datos de Reddit, capturando dimensiones culturales e ideológicas de manera precisa. Asignamos un puntaje de diversidad tanto a nivel individual como comunitario, y lo comparamos con el puntaje de Generalismo-Especialismo (GS), mostrando cómo cada uno aporta información complementaria sobre las interacciones y la diversidad temática en el ecosistema digital. La métrica de diversidad propuesta tiene valor intrínseco, ya que permite caracterizar y segmentar comunidades según su composición social, identificando patrones de homogeneidad o heterogeneidad que impactan en la cohesión y resiliencia comunitaria. Este puntaje de diversidad se convierte en una herramienta valiosa para la investigación y la gesti ́on de comunidades, ya que posibilita la evaluación comparativa de grupos, incluso en ausencia de indicadores de toxicidad, y puede informar políticas de moderación y estrategias de dise ̃no de plataformas. Nuestro an ́alisis emplea modelos PLN para evaluar el contenido conversacional y correlacionarlo con los puntajes de diversidad, aportando un enfoque integral al estudio de las interacciones en entornos digitales. Este trabajo contribuye tanto a la teor ́ıa de la interacci ́on online como a la pr ́actica, proporcionando bases para mejorar la moderaci ́on y fomentar espacios digitales m ́as inclusivos y respetuosos.Recent advances in social network analysis and natural language processing (NLP) techniques have allowed for a better understanding of inter-community dynamics and their impacts. In this work, we propose a novel metric to quantify social and cultural diversity in online communities, aiming to study its relationship with toxicity in user interactions. Unlike previous approaches, our method employs user and community embeddings generated from large volumes of Reddit data, which accurately capture cultural and ideological dimensions. We assign a social diversity score to both users and communities, comparing this diversity with the Generalism-Specialism (GS) score to demonstrate how each provides complementary information about interaction dynamics and thematic diversity. Finally, our analysis utilizes NLP models to evaluate the content of conversations and correlate it with diversity scores. This work contributes not only to research on digital interactions but also to the implementation of better moderation strategies, helping to create more inclusive and respectful online spaces.Fil: Oppenheim, Abi. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesFeuerstein, Esteban ZindelAlbanese, Federico2024-12-20info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000820_Oppenheimspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-18T10:09:59Zseminario:seminario_nCOM000820_OppenheimInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-18 10:10:00.299Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Cuantificando la diversidad cultural en redes sociales : un enfoque de embeddings de comunidades
Quantifying cultural diversity in social networks : a community embedding approach
title Cuantificando la diversidad cultural en redes sociales : un enfoque de embeddings de comunidades
spellingShingle Cuantificando la diversidad cultural en redes sociales : un enfoque de embeddings de comunidades
Oppenheim, Abi
DIVERSIDAD SOCIAL
TOXICIDAD
REDDIT
EMBEDDING DE COMUNIDADES
MACHINE LEARNING
SOCIAL DIVERSITY
TOXICITY
REDDIT
COMMUNITY EMBEDDING
MACHINE LEARNING
title_short Cuantificando la diversidad cultural en redes sociales : un enfoque de embeddings de comunidades
title_full Cuantificando la diversidad cultural en redes sociales : un enfoque de embeddings de comunidades
title_fullStr Cuantificando la diversidad cultural en redes sociales : un enfoque de embeddings de comunidades
title_full_unstemmed Cuantificando la diversidad cultural en redes sociales : un enfoque de embeddings de comunidades
title_sort Cuantificando la diversidad cultural en redes sociales : un enfoque de embeddings de comunidades
dc.creator.none.fl_str_mv Oppenheim, Abi
author Oppenheim, Abi
author_facet Oppenheim, Abi
author_role author
dc.contributor.none.fl_str_mv Feuerstein, Esteban Zindel
Albanese, Federico
dc.subject.none.fl_str_mv DIVERSIDAD SOCIAL
TOXICIDAD
REDDIT
EMBEDDING DE COMUNIDADES
MACHINE LEARNING
SOCIAL DIVERSITY
TOXICITY
REDDIT
COMMUNITY EMBEDDING
MACHINE LEARNING
topic DIVERSIDAD SOCIAL
TOXICIDAD
REDDIT
EMBEDDING DE COMUNIDADES
MACHINE LEARNING
SOCIAL DIVERSITY
TOXICITY
REDDIT
COMMUNITY EMBEDDING
MACHINE LEARNING
dc.description.none.fl_txt_mv Los avances en el análisis de redes sociales y técnicas de procesamiento de lenguaje natural (PLN) han mejorado nuestra comprensión de las dinámicas intercomunitarias y sus impactos. Este trabajo introduce una métrica novedosa que cuantifica la diversidad social y cultural dentro de comunidades online, con el propósito de examinar su relación con la toxicidad en las interacciones de los usuarios. Nuestro método se diferencia de enfoques previos al emplear embeddings de usuarios y comunidades generados a partir de vastos volúmenes de datos de Reddit, capturando dimensiones culturales e ideológicas de manera precisa. Asignamos un puntaje de diversidad tanto a nivel individual como comunitario, y lo comparamos con el puntaje de Generalismo-Especialismo (GS), mostrando cómo cada uno aporta información complementaria sobre las interacciones y la diversidad temática en el ecosistema digital. La métrica de diversidad propuesta tiene valor intrínseco, ya que permite caracterizar y segmentar comunidades según su composición social, identificando patrones de homogeneidad o heterogeneidad que impactan en la cohesión y resiliencia comunitaria. Este puntaje de diversidad se convierte en una herramienta valiosa para la investigación y la gesti ́on de comunidades, ya que posibilita la evaluación comparativa de grupos, incluso en ausencia de indicadores de toxicidad, y puede informar políticas de moderación y estrategias de dise ̃no de plataformas. Nuestro an ́alisis emplea modelos PLN para evaluar el contenido conversacional y correlacionarlo con los puntajes de diversidad, aportando un enfoque integral al estudio de las interacciones en entornos digitales. Este trabajo contribuye tanto a la teor ́ıa de la interacci ́on online como a la pr ́actica, proporcionando bases para mejorar la moderaci ́on y fomentar espacios digitales m ́as inclusivos y respetuosos.
Recent advances in social network analysis and natural language processing (NLP) techniques have allowed for a better understanding of inter-community dynamics and their impacts. In this work, we propose a novel metric to quantify social and cultural diversity in online communities, aiming to study its relationship with toxicity in user interactions. Unlike previous approaches, our method employs user and community embeddings generated from large volumes of Reddit data, which accurately capture cultural and ideological dimensions. We assign a social diversity score to both users and communities, comparing this diversity with the Generalism-Specialism (GS) score to demonstrate how each provides complementary information about interaction dynamics and thematic diversity. Finally, our analysis utilizes NLP models to evaluate the content of conversations and correlate it with diversity scores. This work contributes not only to research on digital interactions but also to the implementation of better moderation strategies, helping to create more inclusive and respectful online spaces.
Fil: Oppenheim, Abi. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Los avances en el análisis de redes sociales y técnicas de procesamiento de lenguaje natural (PLN) han mejorado nuestra comprensión de las dinámicas intercomunitarias y sus impactos. Este trabajo introduce una métrica novedosa que cuantifica la diversidad social y cultural dentro de comunidades online, con el propósito de examinar su relación con la toxicidad en las interacciones de los usuarios. Nuestro método se diferencia de enfoques previos al emplear embeddings de usuarios y comunidades generados a partir de vastos volúmenes de datos de Reddit, capturando dimensiones culturales e ideológicas de manera precisa. Asignamos un puntaje de diversidad tanto a nivel individual como comunitario, y lo comparamos con el puntaje de Generalismo-Especialismo (GS), mostrando cómo cada uno aporta información complementaria sobre las interacciones y la diversidad temática en el ecosistema digital. La métrica de diversidad propuesta tiene valor intrínseco, ya que permite caracterizar y segmentar comunidades según su composición social, identificando patrones de homogeneidad o heterogeneidad que impactan en la cohesión y resiliencia comunitaria. Este puntaje de diversidad se convierte en una herramienta valiosa para la investigación y la gesti ́on de comunidades, ya que posibilita la evaluación comparativa de grupos, incluso en ausencia de indicadores de toxicidad, y puede informar políticas de moderación y estrategias de dise ̃no de plataformas. Nuestro an ́alisis emplea modelos PLN para evaluar el contenido conversacional y correlacionarlo con los puntajes de diversidad, aportando un enfoque integral al estudio de las interacciones en entornos digitales. Este trabajo contribuye tanto a la teor ́ıa de la interacci ́on online como a la pr ́actica, proporcionando bases para mejorar la moderaci ́on y fomentar espacios digitales m ́as inclusivos y respetuosos.
publishDate 2024
dc.date.none.fl_str_mv 2024-12-20
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000820_Oppenheim
url https://hdl.handle.net/20.500.12110/seminario_nCOM000820_Oppenheim
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1843608749807239168
score 13.000565