Predicción de tendencias en redes sociales basada en características sociales y contenido

Autores
Silva, Martín Gastón
Año de publicación
2018
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Domínguez, Martín Ariel, dir.
Celayes, Pablo Gabriel, co dir.
Descripción
Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2018.
En el marco del análisis de redes sociales éste trabajo busca capturar el comportamiento de los usuarios influyentes sobre una publicación determinada. Con esta información, la intención es generar un modelo de aprendizaje automático capaz de predecir si un determinado tweet será “popular” o no. La construcción del conjunto de datos (dataset) fue realizada a través de la API pública de Twitter obteniendo un volumen final de más de 5,000 usuarios y 5,000,000 de publicaciones. Con esta información se entrenaron y evaluaron diversos modelos de aprendizaje auto- mático con múltiples configuraciones, con el objetivo encontrar así el mejor rendimiento. En este sentido, en un primer experimento, se logró inferir un modelo de clasificación binaria basado en SVM (Support Vector Machines) sólo utilizando información social, qué obtuvo un 77 % de certeza, basado en la métrica F1, para predecir si una publicación es considerada “popular”. En una segunda etapa, se decidió agregar técnicas de Procesamiento de Lenguaje Natural aplicadas sobre el contenido de las publicaciones, logrando algunas mejoras sig- nificativas en los casos donde el modelo anterior se veía disminuido. Dicho análisis de los tweets fue realizado utilizando detección de tópicos, mediante algoritmos tipo LDA (Latent Dirichlet Allocation).
n the framework of social network analysis, this work seeks to capture the behavior of influential users about a specific publication. With this information, the intention is to generate an automatic learning model capable of predicting if a certain tweet is popular or not. The construction of the dataset was made through the public Twitter API obtaining a final volume of more than 5,000 users and 5,000,000 publications. With this information, different models of machine learning with multiple configurations were trained and evaluated, in order to obtain the best performance. In this sense, in a database we can infer a classification model based on SVM (Support Vector Machines) only using social information, which obtained a 77% certainty, based on the F1 metric, for predict whether a publication is considered "popular". In a second stage, it was decided to add Natural Language Processing techniques, earning significant improvements in the cases where the previous model was reduced. This analysis of the tweets was done by detection of topics, through LDA(Latent Dirichlet Allocation) algorithms.
Materia
Applied computing - Sociology
Computing methodologies - Natural language processing
Computing methodologies - Support vector machines
Computing methodologies - Latent Dirichlet allocation
Computación aplicada
Metodologías de computación
Análisis de redes sociales
Aprendizaje automático
Detección de influenciadores
Modelos de predicción
Twitter
LDA
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Repositorio
Repositorio Digital Universitario (UNC)
Institución
Universidad Nacional de Córdoba
OAI Identificador
oai:rdu.unc.edu.ar:11086/6245

id RDUUNC_ef1875fd46767a06331633466fea32ab
oai_identifier_str oai:rdu.unc.edu.ar:11086/6245
network_acronym_str RDUUNC
repository_id_str 2572
network_name_str Repositorio Digital Universitario (UNC)
spelling Predicción de tendencias en redes sociales basada en características sociales y contenidoSilva, Martín GastónApplied computing - SociologyComputing methodologies - Natural language processingComputing methodologies - Support vector machinesComputing methodologies - Latent Dirichlet allocationComputación aplicadaMetodologías de computaciónAnálisis de redes socialesAprendizaje automáticoDetección de influenciadoresModelos de predicciónTwitterLDATesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2018.En el marco del análisis de redes sociales éste trabajo busca capturar el comportamiento de los usuarios influyentes sobre una publicación determinada. Con esta información, la intención es generar un modelo de aprendizaje automático capaz de predecir si un determinado tweet será “popular” o no. La construcción del conjunto de datos (dataset) fue realizada a través de la API pública de Twitter obteniendo un volumen final de más de 5,000 usuarios y 5,000,000 de publicaciones. Con esta información se entrenaron y evaluaron diversos modelos de aprendizaje auto- mático con múltiples configuraciones, con el objetivo encontrar así el mejor rendimiento. En este sentido, en un primer experimento, se logró inferir un modelo de clasificación binaria basado en SVM (Support Vector Machines) sólo utilizando información social, qué obtuvo un 77 % de certeza, basado en la métrica F1, para predecir si una publicación es considerada “popular”. En una segunda etapa, se decidió agregar técnicas de Procesamiento de Lenguaje Natural aplicadas sobre el contenido de las publicaciones, logrando algunas mejoras sig- nificativas en los casos donde el modelo anterior se veía disminuido. Dicho análisis de los tweets fue realizado utilizando detección de tópicos, mediante algoritmos tipo LDA (Latent Dirichlet Allocation).n the framework of social network analysis, this work seeks to capture the behavior of influential users about a specific publication. With this information, the intention is to generate an automatic learning model capable of predicting if a certain tweet is popular or not. The construction of the dataset was made through the public Twitter API obtaining a final volume of more than 5,000 users and 5,000,000 publications. With this information, different models of machine learning with multiple configurations were trained and evaluated, in order to obtain the best performance. In this sense, in a database we can infer a classification model based on SVM (Support Vector Machines) only using social information, which obtained a 77% certainty, based on the F1 metric, for predict whether a publication is considered "popular". In a second stage, it was decided to add Natural Language Processing techniques, earning significant improvements in the cases where the previous model was reduced. This analysis of the tweets was done by detection of topics, through LDA(Latent Dirichlet Allocation) algorithms.Domínguez, Martín Ariel, dir.Celayes, Pablo Gabriel, co dir.2018-04-30info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://hdl.handle.net/11086/6245spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2025-10-16T09:31:29Zoai:rdu.unc.edu.ar:11086/6245Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722025-10-16 09:31:29.932Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv Predicción de tendencias en redes sociales basada en características sociales y contenido
title Predicción de tendencias en redes sociales basada en características sociales y contenido
spellingShingle Predicción de tendencias en redes sociales basada en características sociales y contenido
Silva, Martín Gastón
Applied computing - Sociology
Computing methodologies - Natural language processing
Computing methodologies - Support vector machines
Computing methodologies - Latent Dirichlet allocation
Computación aplicada
Metodologías de computación
Análisis de redes sociales
Aprendizaje automático
Detección de influenciadores
Modelos de predicción
Twitter
LDA
title_short Predicción de tendencias en redes sociales basada en características sociales y contenido
title_full Predicción de tendencias en redes sociales basada en características sociales y contenido
title_fullStr Predicción de tendencias en redes sociales basada en características sociales y contenido
title_full_unstemmed Predicción de tendencias en redes sociales basada en características sociales y contenido
title_sort Predicción de tendencias en redes sociales basada en características sociales y contenido
dc.creator.none.fl_str_mv Silva, Martín Gastón
author Silva, Martín Gastón
author_facet Silva, Martín Gastón
author_role author
dc.contributor.none.fl_str_mv Domínguez, Martín Ariel, dir.
Celayes, Pablo Gabriel, co dir.
dc.subject.none.fl_str_mv Applied computing - Sociology
Computing methodologies - Natural language processing
Computing methodologies - Support vector machines
Computing methodologies - Latent Dirichlet allocation
Computación aplicada
Metodologías de computación
Análisis de redes sociales
Aprendizaje automático
Detección de influenciadores
Modelos de predicción
Twitter
LDA
topic Applied computing - Sociology
Computing methodologies - Natural language processing
Computing methodologies - Support vector machines
Computing methodologies - Latent Dirichlet allocation
Computación aplicada
Metodologías de computación
Análisis de redes sociales
Aprendizaje automático
Detección de influenciadores
Modelos de predicción
Twitter
LDA
dc.description.none.fl_txt_mv Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2018.
En el marco del análisis de redes sociales éste trabajo busca capturar el comportamiento de los usuarios influyentes sobre una publicación determinada. Con esta información, la intención es generar un modelo de aprendizaje automático capaz de predecir si un determinado tweet será “popular” o no. La construcción del conjunto de datos (dataset) fue realizada a través de la API pública de Twitter obteniendo un volumen final de más de 5,000 usuarios y 5,000,000 de publicaciones. Con esta información se entrenaron y evaluaron diversos modelos de aprendizaje auto- mático con múltiples configuraciones, con el objetivo encontrar así el mejor rendimiento. En este sentido, en un primer experimento, se logró inferir un modelo de clasificación binaria basado en SVM (Support Vector Machines) sólo utilizando información social, qué obtuvo un 77 % de certeza, basado en la métrica F1, para predecir si una publicación es considerada “popular”. En una segunda etapa, se decidió agregar técnicas de Procesamiento de Lenguaje Natural aplicadas sobre el contenido de las publicaciones, logrando algunas mejoras sig- nificativas en los casos donde el modelo anterior se veía disminuido. Dicho análisis de los tweets fue realizado utilizando detección de tópicos, mediante algoritmos tipo LDA (Latent Dirichlet Allocation).
n the framework of social network analysis, this work seeks to capture the behavior of influential users about a specific publication. With this information, the intention is to generate an automatic learning model capable of predicting if a certain tweet is popular or not. The construction of the dataset was made through the public Twitter API obtaining a final volume of more than 5,000 users and 5,000,000 publications. With this information, different models of machine learning with multiple configurations were trained and evaluated, in order to obtain the best performance. In this sense, in a database we can infer a classification model based on SVM (Support Vector Machines) only using social information, which obtained a 77% certainty, based on the F1 metric, for predict whether a publication is considered "popular". In a second stage, it was decided to add Natural Language Processing techniques, earning significant improvements in the cases where the previous model was reduced. This analysis of the tweets was done by detection of topics, through LDA(Latent Dirichlet Allocation) algorithms.
description Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2018.
publishDate 2018
dc.date.none.fl_str_mv 2018-04-30
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11086/6245
url http://hdl.handle.net/11086/6245
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositorio Digital Universitario (UNC)
instname:Universidad Nacional de Córdoba
instacron:UNC
reponame_str Repositorio Digital Universitario (UNC)
collection Repositorio Digital Universitario (UNC)
instname_str Universidad Nacional de Córdoba
instacron_str UNC
institution UNC
repository.name.fl_str_mv Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv oca.unc@gmail.com
_version_ 1846143400501313536
score 12.712165