Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina

Autores
Talamé, María Lorena; Monge, Agustina; Amor, Matias Nicolas Lisardo; Cardoso, Carolina A.
Año de publicación
2021
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión aceptada
Descripción
El procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde las personas se expresan con frecuencia y libremente es Twitter y, por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial. Text processing of any kind is a task of great interest in the scientific community. One of the social networks where people express themselves frequently and freely is Twitter, and therefore, it is one of the main sources for obtaining textual data. In order to perform any type of analysis, the first step is to represent texts in a suitable way so that they can afterwards be used by an algorithm. This paper describes the creation of a corpus of word representations obtained from Twitter applying Word2Vec. Although the sets of tweets used are not massive, they are considered sufficient to take the first step in the creation of a corpus. An important contribution of this work is the training of a model that captures the idioms and colloquial expressions of Argentina, and includes emojis and hashtags within the vector space.
Fil: Talamé, María Lorena. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Fil: Monge, Agustina. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Fil: Amor, Matias Nicolas Lisardo. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Materia
Inteligencia artificial
Análisis automático de textos
Paratexto
Redes sociales
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
Repositorio Institucional (UCaSal)
Institución
Universidad Católica de Salta
OAI Identificador
oai:bibliotecas.ucasal.edu.ar:71836

id RIUCASAL_8d18922b973f117d611c0cb16b805851
oai_identifier_str oai:bibliotecas.ucasal.edu.ar:71836
network_acronym_str RIUCASAL
repository_id_str 3930
network_name_str Repositorio Institucional (UCaSal)
spelling Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in ArgentinaTalamé, María LorenaMonge, AgustinaAmor, Matias Nicolas LisardoCardoso, Carolina A.Inteligencia artificialAnálisis automático de textosParatextoRedes socialesEl procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde las personas se expresan con frecuencia y libremente es Twitter y, por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial. Text processing of any kind is a task of great interest in the scientific community. One of the social networks where people express themselves frequently and freely is Twitter, and therefore, it is one of the main sources for obtaining textual data. In order to perform any type of analysis, the first step is to represent texts in a suitable way so that they can afterwards be used by an algorithm. This paper describes the creation of a corpus of word representations obtained from Twitter applying Word2Vec. Although the sets of tweets used are not massive, they are considered sufficient to take the first step in the creation of a corpus. An important contribution of this work is the training of a model that captures the idioms and colloquial expressions of Argentina, and includes emojis and hashtags within the vector space.Fil: Talamé, María Lorena. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.Fil: Monge, Agustina. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.Fil: Amor, Matias Nicolas Lisardo. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.Universidad Católica de Salta. Facultad de Ingeniería (Salta)2021-12-23info:eu-repo/semantics/articleinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttps://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=718367183620221017u u u0frey0103 baspaCuadernos de Ingeniería1001514Salta (province)info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)reponame:Repositorio Institucional (UCaSal)instname:Universidad Católica de Saltainstacron:UCaSal2025-09-11T10:51:53Zoai:bibliotecas.ucasal.edu.ar:71836Institucionalhttp://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=16Universidad privadaNo correspondehttp://bibliotecas.ucasal.edu.ar/ws/oai2_7?verb=Identifycdiedrich@ucasal.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:39302025-09-11 10:51:53.772Repositorio Institucional (UCaSal) - Universidad Católica de Saltafalse
dc.title.none.fl_str_mv Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
title Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
spellingShingle Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
Talamé, María Lorena
Inteligencia artificial
Análisis automático de textos
Paratexto
Redes sociales
title_short Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
title_full Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
title_fullStr Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
title_full_unstemmed Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
title_sort Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
dc.creator.none.fl_str_mv Talamé, María Lorena
Monge, Agustina
Amor, Matias Nicolas Lisardo
Cardoso, Carolina A.
author Talamé, María Lorena
author_facet Talamé, María Lorena
Monge, Agustina
Amor, Matias Nicolas Lisardo
Cardoso, Carolina A.
author_role author
author2 Monge, Agustina
Amor, Matias Nicolas Lisardo
Cardoso, Carolina A.
author2_role author
author
author
dc.subject.none.fl_str_mv Inteligencia artificial
Análisis automático de textos
Paratexto
Redes sociales
topic Inteligencia artificial
Análisis automático de textos
Paratexto
Redes sociales
dc.description.none.fl_txt_mv El procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde las personas se expresan con frecuencia y libremente es Twitter y, por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial. Text processing of any kind is a task of great interest in the scientific community. One of the social networks where people express themselves frequently and freely is Twitter, and therefore, it is one of the main sources for obtaining textual data. In order to perform any type of analysis, the first step is to represent texts in a suitable way so that they can afterwards be used by an algorithm. This paper describes the creation of a corpus of word representations obtained from Twitter applying Word2Vec. Although the sets of tweets used are not massive, they are considered sufficient to take the first step in the creation of a corpus. An important contribution of this work is the training of a model that captures the idioms and colloquial expressions of Argentina, and includes emojis and hashtags within the vector space.
Fil: Talamé, María Lorena. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Fil: Monge, Agustina. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Fil: Amor, Matias Nicolas Lisardo. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
description El procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde las personas se expresan con frecuencia y libremente es Twitter y, por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial. Text processing of any kind is a task of great interest in the scientific community. One of the social networks where people express themselves frequently and freely is Twitter, and therefore, it is one of the main sources for obtaining textual data. In order to perform any type of analysis, the first step is to represent texts in a suitable way so that they can afterwards be used by an algorithm. This paper describes the creation of a corpus of word representations obtained from Twitter applying Word2Vec. Although the sets of tweets used are not massive, they are considered sufficient to take the first step in the creation of a corpus. An important contribution of this work is the training of a model that captures the idioms and colloquial expressions of Argentina, and includes emojis and hashtags within the vector space.
publishDate 2021
dc.date.none.fl_str_mv 2021-12-23
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/acceptedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str acceptedVersion
dc.identifier.none.fl_str_mv https://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=71836
71836
20221017u u u0frey0103 ba
url https://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=71836
identifier_str_mv 71836
20221017u u u0frey0103 ba
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv Cuadernos de Ingeniería
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv 1001514
Salta (province)
dc.publisher.none.fl_str_mv Universidad Católica de Salta. Facultad de Ingeniería (Salta)
publisher.none.fl_str_mv Universidad Católica de Salta. Facultad de Ingeniería (Salta)
dc.source.none.fl_str_mv reponame:Repositorio Institucional (UCaSal)
instname:Universidad Católica de Salta
instacron:UCaSal
reponame_str Repositorio Institucional (UCaSal)
collection Repositorio Institucional (UCaSal)
instname_str Universidad Católica de Salta
instacron_str UCaSal
institution UCaSal
repository.name.fl_str_mv Repositorio Institucional (UCaSal) - Universidad Católica de Salta
repository.mail.fl_str_mv cdiedrich@ucasal.edu.ar
_version_ 1842976701188931584
score 13.004268