Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
- Autores
- Talamé, María Lorena; Monge, Agustina; Amor, Matias Nicolas Lisardo; Cardoso, Carolina A.
- Año de publicación
- 2021
- Idioma
- español castellano
- Tipo de recurso
- artículo
- Estado
- versión aceptada
- Descripción
- El procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde las personas se expresan con frecuencia y libremente es Twitter y, por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial. Text processing of any kind is a task of great interest in the scientific community. One of the social networks where people express themselves frequently and freely is Twitter, and therefore, it is one of the main sources for obtaining textual data. In order to perform any type of analysis, the first step is to represent texts in a suitable way so that they can afterwards be used by an algorithm. This paper describes the creation of a corpus of word representations obtained from Twitter applying Word2Vec. Although the sets of tweets used are not massive, they are considered sufficient to take the first step in the creation of a corpus. An important contribution of this work is the training of a model that captures the idioms and colloquial expressions of Argentina, and includes emojis and hashtags within the vector space.
Fil: Talamé, María Lorena. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Fil: Monge, Agustina. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Fil: Amor, Matias Nicolas Lisardo. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina. - Materia
-
Inteligencia artificial
Análisis automático de textos
Paratexto
Redes sociales - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
- Institución
- Universidad Católica de Salta
- OAI Identificador
- oai:bibliotecas.ucasal.edu.ar:71836
Ver los metadatos del registro completo
id |
RIUCASAL_8d18922b973f117d611c0cb16b805851 |
---|---|
oai_identifier_str |
oai:bibliotecas.ucasal.edu.ar:71836 |
network_acronym_str |
RIUCASAL |
repository_id_str |
3930 |
network_name_str |
Repositorio Institucional (UCaSal) |
spelling |
Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in ArgentinaTalamé, María LorenaMonge, AgustinaAmor, Matias Nicolas LisardoCardoso, Carolina A.Inteligencia artificialAnálisis automático de textosParatextoRedes socialesEl procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde las personas se expresan con frecuencia y libremente es Twitter y, por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial. Text processing of any kind is a task of great interest in the scientific community. One of the social networks where people express themselves frequently and freely is Twitter, and therefore, it is one of the main sources for obtaining textual data. In order to perform any type of analysis, the first step is to represent texts in a suitable way so that they can afterwards be used by an algorithm. This paper describes the creation of a corpus of word representations obtained from Twitter applying Word2Vec. Although the sets of tweets used are not massive, they are considered sufficient to take the first step in the creation of a corpus. An important contribution of this work is the training of a model that captures the idioms and colloquial expressions of Argentina, and includes emojis and hashtags within the vector space.Fil: Talamé, María Lorena. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.Fil: Monge, Agustina. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.Fil: Amor, Matias Nicolas Lisardo. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.Universidad Católica de Salta. Facultad de Ingeniería (Salta)2021-12-23info:eu-repo/semantics/articleinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttps://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=718367183620221017u u u0frey0103 baspaCuadernos de Ingeniería1001514Salta (province)info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)reponame:Repositorio Institucional (UCaSal)instname:Universidad Católica de Saltainstacron:UCaSal2025-09-11T10:51:53Zoai:bibliotecas.ucasal.edu.ar:71836Institucionalhttp://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=16Universidad privadaNo correspondehttp://bibliotecas.ucasal.edu.ar/ws/oai2_7?verb=Identifycdiedrich@ucasal.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:39302025-09-11 10:51:53.772Repositorio Institucional (UCaSal) - Universidad Católica de Saltafalse |
dc.title.none.fl_str_mv |
Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina |
title |
Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina |
spellingShingle |
Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina Talamé, María Lorena Inteligencia artificial Análisis automático de textos Paratexto Redes sociales |
title_short |
Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina |
title_full |
Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina |
title_fullStr |
Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina |
title_full_unstemmed |
Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina |
title_sort |
Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina |
dc.creator.none.fl_str_mv |
Talamé, María Lorena Monge, Agustina Amor, Matias Nicolas Lisardo Cardoso, Carolina A. |
author |
Talamé, María Lorena |
author_facet |
Talamé, María Lorena Monge, Agustina Amor, Matias Nicolas Lisardo Cardoso, Carolina A. |
author_role |
author |
author2 |
Monge, Agustina Amor, Matias Nicolas Lisardo Cardoso, Carolina A. |
author2_role |
author author author |
dc.subject.none.fl_str_mv |
Inteligencia artificial Análisis automático de textos Paratexto Redes sociales |
topic |
Inteligencia artificial Análisis automático de textos Paratexto Redes sociales |
dc.description.none.fl_txt_mv |
El procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde las personas se expresan con frecuencia y libremente es Twitter y, por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial. Text processing of any kind is a task of great interest in the scientific community. One of the social networks where people express themselves frequently and freely is Twitter, and therefore, it is one of the main sources for obtaining textual data. In order to perform any type of analysis, the first step is to represent texts in a suitable way so that they can afterwards be used by an algorithm. This paper describes the creation of a corpus of word representations obtained from Twitter applying Word2Vec. Although the sets of tweets used are not massive, they are considered sufficient to take the first step in the creation of a corpus. An important contribution of this work is the training of a model that captures the idioms and colloquial expressions of Argentina, and includes emojis and hashtags within the vector space. Fil: Talamé, María Lorena. Universidad Católica de Salta. Facultad de Ingeniería; Argentina. Fil: Monge, Agustina. Universidad Católica de Salta. Facultad de Ingeniería; Argentina. Fil: Amor, Matias Nicolas Lisardo. Universidad Católica de Salta. Facultad de Ingeniería; Argentina. Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina. |
description |
El procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde las personas se expresan con frecuencia y libremente es Twitter y, por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial. Text processing of any kind is a task of great interest in the scientific community. One of the social networks where people express themselves frequently and freely is Twitter, and therefore, it is one of the main sources for obtaining textual data. In order to perform any type of analysis, the first step is to represent texts in a suitable way so that they can afterwards be used by an algorithm. This paper describes the creation of a corpus of word representations obtained from Twitter applying Word2Vec. Although the sets of tweets used are not massive, they are considered sufficient to take the first step in the creation of a corpus. An important contribution of this work is the training of a model that captures the idioms and colloquial expressions of Argentina, and includes emojis and hashtags within the vector space. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-12-23 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/acceptedVersion http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
format |
article |
status_str |
acceptedVersion |
dc.identifier.none.fl_str_mv |
https://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=71836 71836 20221017u u u0frey0103 ba |
url |
https://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=71836 |
identifier_str_mv |
71836 20221017u u u0frey0103 ba |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.relation.none.fl_str_mv |
Cuadernos de Ingeniería |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0) |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
1001514 Salta (province) |
dc.publisher.none.fl_str_mv |
Universidad Católica de Salta. Facultad de Ingeniería (Salta) |
publisher.none.fl_str_mv |
Universidad Católica de Salta. Facultad de Ingeniería (Salta) |
dc.source.none.fl_str_mv |
reponame:Repositorio Institucional (UCaSal) instname:Universidad Católica de Salta instacron:UCaSal |
reponame_str |
Repositorio Institucional (UCaSal) |
collection |
Repositorio Institucional (UCaSal) |
instname_str |
Universidad Católica de Salta |
instacron_str |
UCaSal |
institution |
UCaSal |
repository.name.fl_str_mv |
Repositorio Institucional (UCaSal) - Universidad Católica de Salta |
repository.mail.fl_str_mv |
cdiedrich@ucasal.edu.ar |
_version_ |
1842976701188931584 |
score |
13.004268 |