Minería de textos para clasificación y análisis de sentimientos de relatos personales

Autores
Ruiz Diaz, Adriana Soledad; Méndez Garabetti, Miguel
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
El presente trabajo busca implementar herramientas y técnicas de aprendizaje automático para automatizar el proceso de análisis de los relatos recopilados en tres ediciones del libro "Matilda y las Mujeres en Ingeniería en América Latina", con el fin de identificar factores que influyen en la elección y ejercicio de la carrera de ingeniería por parte de las mujeres. La metodología seguirá los lineamientos propuestos para un proceso de Descubrimiento de Conocimiento en Textos (KDT). El trabajo se dividirá en varias etapas: comprensión del dominio de aplicación, extracción de datos, limpieza, procesamiento y transformación de datos, y desarrollo del modelo. En la actualidad, el proyecto se encuentra en la fase de construcción del corpus y supresión de patrones de información no significativos. Luego se realizará una tokenización del texto para entender las características del mismo y se evaluará la técnica más adecuada para cuantificar el set de palabras presentes en el corpus. Se construirá un modelo de aprendizaje automático supervisado para predecir la temática principal del relato y se analizará el sentimiento del mismo en función de su temática. El análisis de sentimientos se realizará considerando el sentimiento como la suma de los sentimientos de cada una de las palabras que lo conforman.
This work aims to implement tools and machine learning techniques to automate the process of analyzing the narratives collected in three editions of the book "Matilda and Women in Engineering in Latin America." The goal is to identify factors that influence the choice and practice of an engineering career by women. The methodology will follow the proposed guidelines for a Knowledge Discovery in Texts (KDT) process. The work will be divided into several stages: understanding the application domain, data extraction, cleaning, processing and transformation of data, and model development. Currently, the project is in the phase of constructing the corpus and removing non-significant patterns of information. Next, the text will be tokenized to understand its characteristics, and the most suitable technique for quantifying the set of words present in the corpus will be evaluated. A supervised machine learning model will be built to predict the main theme of the narrative, and its sentiment will be analyzed based on that theme. The sentiment analysis will be performed by considering sentiment as the sum of the sentiments of each of the words that compose it.
Sociedad Argentina de Informática e Investigación Operativa
Materia
Ciencias Informáticas
minería de textos
aprendizaje automático
clasificación
análisis de sentimientos
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/165743

id SEDICI_8634ee3e5bb3f52d24f53ae6b04f1d86
oai_identifier_str oai:sedici.unlp.edu.ar:10915/165743
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Minería de textos para clasificación y análisis de sentimientos de relatos personalesText Mining for Classification and Sentiment Analysis of Personal StoriesRuiz Diaz, Adriana SoledadMéndez Garabetti, MiguelCiencias Informáticasminería de textosaprendizaje automáticoclasificaciónanálisis de sentimientosEl presente trabajo busca implementar herramientas y técnicas de aprendizaje automático para automatizar el proceso de análisis de los relatos recopilados en tres ediciones del libro "Matilda y las Mujeres en Ingeniería en América Latina", con el fin de identificar factores que influyen en la elección y ejercicio de la carrera de ingeniería por parte de las mujeres. La metodología seguirá los lineamientos propuestos para un proceso de Descubrimiento de Conocimiento en Textos (KDT). El trabajo se dividirá en varias etapas: comprensión del dominio de aplicación, extracción de datos, limpieza, procesamiento y transformación de datos, y desarrollo del modelo. En la actualidad, el proyecto se encuentra en la fase de construcción del corpus y supresión de patrones de información no significativos. Luego se realizará una tokenización del texto para entender las características del mismo y se evaluará la técnica más adecuada para cuantificar el set de palabras presentes en el corpus. Se construirá un modelo de aprendizaje automático supervisado para predecir la temática principal del relato y se analizará el sentimiento del mismo en función de su temática. El análisis de sentimientos se realizará considerando el sentimiento como la suma de los sentimientos de cada una de las palabras que lo conforman.This work aims to implement tools and machine learning techniques to automate the process of analyzing the narratives collected in three editions of the book "Matilda and Women in Engineering in Latin America." The goal is to identify factors that influence the choice and practice of an engineering career by women. The methodology will follow the proposed guidelines for a Knowledge Discovery in Texts (KDT) process. The work will be divided into several stages: understanding the application domain, data extraction, cleaning, processing and transformation of data, and model development. Currently, the project is in the phase of constructing the corpus and removing non-significant patterns of information. Next, the text will be tokenized to understand its characteristics, and the most suitable technique for quantifying the set of words present in the corpus will be evaluated. A supervised machine learning model will be built to predict the main theme of the narrative, and its sentiment will be analyzed based on that theme. The sentiment analysis will be performed by considering sentiment as the sum of the sentiments of each of the words that compose it.Sociedad Argentina de Informática e Investigación Operativa2023-09info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/165743spainfo:eu-repo/semantics/altIdentifier/url/https://publicaciones.sadio.org.ar/index.php/JAIIO/article/view/662info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:43:55Zoai:sedici.unlp.edu.ar:10915/165743Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:43:55.982SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Minería de textos para clasificación y análisis de sentimientos de relatos personales
Text Mining for Classification and Sentiment Analysis of Personal Stories
title Minería de textos para clasificación y análisis de sentimientos de relatos personales
spellingShingle Minería de textos para clasificación y análisis de sentimientos de relatos personales
Ruiz Diaz, Adriana Soledad
Ciencias Informáticas
minería de textos
aprendizaje automático
clasificación
análisis de sentimientos
title_short Minería de textos para clasificación y análisis de sentimientos de relatos personales
title_full Minería de textos para clasificación y análisis de sentimientos de relatos personales
title_fullStr Minería de textos para clasificación y análisis de sentimientos de relatos personales
title_full_unstemmed Minería de textos para clasificación y análisis de sentimientos de relatos personales
title_sort Minería de textos para clasificación y análisis de sentimientos de relatos personales
dc.creator.none.fl_str_mv Ruiz Diaz, Adriana Soledad
Méndez Garabetti, Miguel
author Ruiz Diaz, Adriana Soledad
author_facet Ruiz Diaz, Adriana Soledad
Méndez Garabetti, Miguel
author_role author
author2 Méndez Garabetti, Miguel
author2_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
minería de textos
aprendizaje automático
clasificación
análisis de sentimientos
topic Ciencias Informáticas
minería de textos
aprendizaje automático
clasificación
análisis de sentimientos
dc.description.none.fl_txt_mv El presente trabajo busca implementar herramientas y técnicas de aprendizaje automático para automatizar el proceso de análisis de los relatos recopilados en tres ediciones del libro "Matilda y las Mujeres en Ingeniería en América Latina", con el fin de identificar factores que influyen en la elección y ejercicio de la carrera de ingeniería por parte de las mujeres. La metodología seguirá los lineamientos propuestos para un proceso de Descubrimiento de Conocimiento en Textos (KDT). El trabajo se dividirá en varias etapas: comprensión del dominio de aplicación, extracción de datos, limpieza, procesamiento y transformación de datos, y desarrollo del modelo. En la actualidad, el proyecto se encuentra en la fase de construcción del corpus y supresión de patrones de información no significativos. Luego se realizará una tokenización del texto para entender las características del mismo y se evaluará la técnica más adecuada para cuantificar el set de palabras presentes en el corpus. Se construirá un modelo de aprendizaje automático supervisado para predecir la temática principal del relato y se analizará el sentimiento del mismo en función de su temática. El análisis de sentimientos se realizará considerando el sentimiento como la suma de los sentimientos de cada una de las palabras que lo conforman.
This work aims to implement tools and machine learning techniques to automate the process of analyzing the narratives collected in three editions of the book "Matilda and Women in Engineering in Latin America." The goal is to identify factors that influence the choice and practice of an engineering career by women. The methodology will follow the proposed guidelines for a Knowledge Discovery in Texts (KDT) process. The work will be divided into several stages: understanding the application domain, data extraction, cleaning, processing and transformation of data, and model development. Currently, the project is in the phase of constructing the corpus and removing non-significant patterns of information. Next, the text will be tokenized to understand its characteristics, and the most suitable technique for quantifying the set of words present in the corpus will be evaluated. A supervised machine learning model will be built to predict the main theme of the narrative, and its sentiment will be analyzed based on that theme. The sentiment analysis will be performed by considering sentiment as the sum of the sentiments of each of the words that compose it.
Sociedad Argentina de Informática e Investigación Operativa
description El presente trabajo busca implementar herramientas y técnicas de aprendizaje automático para automatizar el proceso de análisis de los relatos recopilados en tres ediciones del libro "Matilda y las Mujeres en Ingeniería en América Latina", con el fin de identificar factores que influyen en la elección y ejercicio de la carrera de ingeniería por parte de las mujeres. La metodología seguirá los lineamientos propuestos para un proceso de Descubrimiento de Conocimiento en Textos (KDT). El trabajo se dividirá en varias etapas: comprensión del dominio de aplicación, extracción de datos, limpieza, procesamiento y transformación de datos, y desarrollo del modelo. En la actualidad, el proyecto se encuentra en la fase de construcción del corpus y supresión de patrones de información no significativos. Luego se realizará una tokenización del texto para entender las características del mismo y se evaluará la técnica más adecuada para cuantificar el set de palabras presentes en el corpus. Se construirá un modelo de aprendizaje automático supervisado para predecir la temática principal del relato y se analizará el sentimiento del mismo en función de su temática. El análisis de sentimientos se realizará considerando el sentimiento como la suma de los sentimientos de cada una de las palabras que lo conforman.
publishDate 2023
dc.date.none.fl_str_mv 2023-09
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/165743
url http://sedici.unlp.edu.ar/handle/10915/165743
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://publicaciones.sadio.org.ar/index.php/JAIIO/article/view/662
info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844616306922356736
score 13.070432