Aplicación de Redes Neuronales Convolucionales al problema de Turn-Taking usando espectrogramas
- Autores
- Sicardi, Sebastían Matías
- Año de publicación
- 2020
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Brusco, Pablo Daniel
Riera, Pablo Ernesto - Descripción
- En una conversación hablada entre dos personas se da un intercambio implícito de señales que contribuyen a una mayor fluidez y naturalidad del diálogo. Este es el caso de las llamadas pistas de transición de turno (o turn-taking cues en inglés). Dichas pistas pueden entenderse como señales acústico-prosódicas, sintácticas o gestuales que anticipan eventos relacionados al manejo de turnos en una conversación y que permiten al interlocutor predecir cómo sucederá el turno actual. En la actualidad, los problemas relacionados a la detección de estas pistas son mayormente analizados mediante técnicas de aprendizaje automático, más precisamente con redes neuronales recurrentes. Por otro lado, en otras tareas de procesamiento de audio se realizaron grandes avances mediante la combinación de redes neuronales convolucionales (CNNs) aplicadas sobre el espectrograma de la señal acústica. El objetivo de esta tesis es investigar la tarea de predicción de transiciones de turno utilizando CNNs. Para ello, utilizamos datos provenientes de un corpus de juegos colaborativos en parejas, en donde 34 personas interactúan a través de su voz para lograr posicionar objetos en sus pantallas. Este corpus se encuentra en español argentino y ha sido utilizado en trabajos anteriores para diversas tareas relacionadas al procesamiento de diálogos. Nuestros resultados indican que los modelos basados en CNNs superan un puntaje ƒ1 macro-promediada de 0,45 — desempeño comparable con modelos anteriores y en donde los atributos han sido construidos mediante un trabajo más profundo de ingeniería de atributos. Por otra parte, obtuvimos buenos resultados al evaluar nuestro modelo sobre datos no utilizados para el entrenamiento del modelo y sobre datos provenientes de una segunda porción del corpus de juegos en español (ƒ1 macro-promediada de 0.47), resultados que demuestran el buen poder de generalización de estos modelos. Finalmente, estudiamos las posibilidades de mejora de nuestro modelos al agregar más datos mediante curvas de aprendizaje. Concluimos que el uso de CNNs sobre espectrogramas constituye una herramienta competitiva y con gran potencial para la predicción de transiciones de turnos en conversaciones, lo cual es de gran importancia tanto para la tarea de análisis automático de conversaciones como para la mejorara del desempeño de los cada vez más utilizados asistentes virtuales.
In any conversation between two individuals, an implicit exchange of signals occur that contributes to fluidity in the conversation. This is the case of the turn-taking cues — prosodic, syntactic or even gestural patterns that indicate events related to the turn management in a conversation and allows the listener to predict how the current turn will proceed. In the present, tasks related to the detection of these cues are mostly performed with the use of machine learning techniques, more precisely with recurrent neural networks. On the other hand, in different tasks of speech processing, significant improvements have been made with the combination of convolutional neural networks (CNNs) applied to spectrograms of the acoustic signal. The main goal of this thesis is to research the turn taking prediction task using CNNs. To do that, we used a dataset from a collaborative game in couples, where 34 people interact by voice to position an object on their screens. This corpus is available in Argentine Spanish and has been used in previous works for numerous tasks related to dialogue processing. Our results show that models based on CNNs achieve a macro-averaged ƒ1 score of over 0,45 - which is comparable with previous models where features have been built by a more profound work of feature engineering. Meanwhile, we achieved good results evaluating our model over data not used in training and with data from a second part of the Spanish games corpus ( macro-average ƒ1 score of 0.47). These results show the capacity of the generalization of these models. Finally, we studied the possibility of improving our models with training with more data by a learning curve. In conclusion, the use of CNNs on top of spectrograms constitutes a competitive tool with great potential for turn-taking prediction in conversation, which is of great importance both for automatic analysis of conversations and for the improvement of virtual assistants.
Fil: Sicardi, Sebastían Matías. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
MANEJO DE TURNO
APRENDIZAJE AUTOMATICO
CNNS
ESPECTROGRAMAS
TURN-TAKING
MACHINE LEARNING
CNNS
SPECTROGRAMS - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000575_Sicardi
Ver los metadatos del registro completo
id |
BDUBAFCEN_2c0197901bd1403ae05acf66af791252 |
---|---|
oai_identifier_str |
seminario:seminario_nCOM000575_Sicardi |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Aplicación de Redes Neuronales Convolucionales al problema de Turn-Taking usando espectrogramasConvolucional neural networks applied to the turn-taking problem using spectrogramsSicardi, Sebastían MatíasMANEJO DE TURNOAPRENDIZAJE AUTOMATICOCNNSESPECTROGRAMASTURN-TAKINGMACHINE LEARNINGCNNSSPECTROGRAMSEn una conversación hablada entre dos personas se da un intercambio implícito de señales que contribuyen a una mayor fluidez y naturalidad del diálogo. Este es el caso de las llamadas pistas de transición de turno (o turn-taking cues en inglés). Dichas pistas pueden entenderse como señales acústico-prosódicas, sintácticas o gestuales que anticipan eventos relacionados al manejo de turnos en una conversación y que permiten al interlocutor predecir cómo sucederá el turno actual. En la actualidad, los problemas relacionados a la detección de estas pistas son mayormente analizados mediante técnicas de aprendizaje automático, más precisamente con redes neuronales recurrentes. Por otro lado, en otras tareas de procesamiento de audio se realizaron grandes avances mediante la combinación de redes neuronales convolucionales (CNNs) aplicadas sobre el espectrograma de la señal acústica. El objetivo de esta tesis es investigar la tarea de predicción de transiciones de turno utilizando CNNs. Para ello, utilizamos datos provenientes de un corpus de juegos colaborativos en parejas, en donde 34 personas interactúan a través de su voz para lograr posicionar objetos en sus pantallas. Este corpus se encuentra en español argentino y ha sido utilizado en trabajos anteriores para diversas tareas relacionadas al procesamiento de diálogos. Nuestros resultados indican que los modelos basados en CNNs superan un puntaje ƒ1 macro-promediada de 0,45 — desempeño comparable con modelos anteriores y en donde los atributos han sido construidos mediante un trabajo más profundo de ingeniería de atributos. Por otra parte, obtuvimos buenos resultados al evaluar nuestro modelo sobre datos no utilizados para el entrenamiento del modelo y sobre datos provenientes de una segunda porción del corpus de juegos en español (ƒ1 macro-promediada de 0.47), resultados que demuestran el buen poder de generalización de estos modelos. Finalmente, estudiamos las posibilidades de mejora de nuestro modelos al agregar más datos mediante curvas de aprendizaje. Concluimos que el uso de CNNs sobre espectrogramas constituye una herramienta competitiva y con gran potencial para la predicción de transiciones de turnos en conversaciones, lo cual es de gran importancia tanto para la tarea de análisis automático de conversaciones como para la mejorara del desempeño de los cada vez más utilizados asistentes virtuales.In any conversation between two individuals, an implicit exchange of signals occur that contributes to fluidity in the conversation. This is the case of the turn-taking cues — prosodic, syntactic or even gestural patterns that indicate events related to the turn management in a conversation and allows the listener to predict how the current turn will proceed. In the present, tasks related to the detection of these cues are mostly performed with the use of machine learning techniques, more precisely with recurrent neural networks. On the other hand, in different tasks of speech processing, significant improvements have been made with the combination of convolutional neural networks (CNNs) applied to spectrograms of the acoustic signal. The main goal of this thesis is to research the turn taking prediction task using CNNs. To do that, we used a dataset from a collaborative game in couples, where 34 people interact by voice to position an object on their screens. This corpus is available in Argentine Spanish and has been used in previous works for numerous tasks related to dialogue processing. Our results show that models based on CNNs achieve a macro-averaged ƒ1 score of over 0,45 - which is comparable with previous models where features have been built by a more profound work of feature engineering. Meanwhile, we achieved good results evaluating our model over data not used in training and with data from a second part of the Spanish games corpus ( macro-average ƒ1 score of 0.47). These results show the capacity of the generalization of these models. Finally, we studied the possibility of improving our models with training with more data by a learning curve. In conclusion, the use of CNNs on top of spectrograms constitutes a competitive tool with great potential for turn-taking prediction in conversation, which is of great importance both for automatic analysis of conversations and for the improvement of virtual assistants.Fil: Sicardi, Sebastían Matías. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesBrusco, Pablo DanielRiera, Pablo Ernesto2020info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000575_Sicardispainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-04T09:49:27Zseminario:seminario_nCOM000575_SicardiInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-04 09:49:28.813Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Aplicación de Redes Neuronales Convolucionales al problema de Turn-Taking usando espectrogramas Convolucional neural networks applied to the turn-taking problem using spectrograms |
title |
Aplicación de Redes Neuronales Convolucionales al problema de Turn-Taking usando espectrogramas |
spellingShingle |
Aplicación de Redes Neuronales Convolucionales al problema de Turn-Taking usando espectrogramas Sicardi, Sebastían Matías MANEJO DE TURNO APRENDIZAJE AUTOMATICO CNNS ESPECTROGRAMAS TURN-TAKING MACHINE LEARNING CNNS SPECTROGRAMS |
title_short |
Aplicación de Redes Neuronales Convolucionales al problema de Turn-Taking usando espectrogramas |
title_full |
Aplicación de Redes Neuronales Convolucionales al problema de Turn-Taking usando espectrogramas |
title_fullStr |
Aplicación de Redes Neuronales Convolucionales al problema de Turn-Taking usando espectrogramas |
title_full_unstemmed |
Aplicación de Redes Neuronales Convolucionales al problema de Turn-Taking usando espectrogramas |
title_sort |
Aplicación de Redes Neuronales Convolucionales al problema de Turn-Taking usando espectrogramas |
dc.creator.none.fl_str_mv |
Sicardi, Sebastían Matías |
author |
Sicardi, Sebastían Matías |
author_facet |
Sicardi, Sebastían Matías |
author_role |
author |
dc.contributor.none.fl_str_mv |
Brusco, Pablo Daniel Riera, Pablo Ernesto |
dc.subject.none.fl_str_mv |
MANEJO DE TURNO APRENDIZAJE AUTOMATICO CNNS ESPECTROGRAMAS TURN-TAKING MACHINE LEARNING CNNS SPECTROGRAMS |
topic |
MANEJO DE TURNO APRENDIZAJE AUTOMATICO CNNS ESPECTROGRAMAS TURN-TAKING MACHINE LEARNING CNNS SPECTROGRAMS |
dc.description.none.fl_txt_mv |
En una conversación hablada entre dos personas se da un intercambio implícito de señales que contribuyen a una mayor fluidez y naturalidad del diálogo. Este es el caso de las llamadas pistas de transición de turno (o turn-taking cues en inglés). Dichas pistas pueden entenderse como señales acústico-prosódicas, sintácticas o gestuales que anticipan eventos relacionados al manejo de turnos en una conversación y que permiten al interlocutor predecir cómo sucederá el turno actual. En la actualidad, los problemas relacionados a la detección de estas pistas son mayormente analizados mediante técnicas de aprendizaje automático, más precisamente con redes neuronales recurrentes. Por otro lado, en otras tareas de procesamiento de audio se realizaron grandes avances mediante la combinación de redes neuronales convolucionales (CNNs) aplicadas sobre el espectrograma de la señal acústica. El objetivo de esta tesis es investigar la tarea de predicción de transiciones de turno utilizando CNNs. Para ello, utilizamos datos provenientes de un corpus de juegos colaborativos en parejas, en donde 34 personas interactúan a través de su voz para lograr posicionar objetos en sus pantallas. Este corpus se encuentra en español argentino y ha sido utilizado en trabajos anteriores para diversas tareas relacionadas al procesamiento de diálogos. Nuestros resultados indican que los modelos basados en CNNs superan un puntaje ƒ1 macro-promediada de 0,45 — desempeño comparable con modelos anteriores y en donde los atributos han sido construidos mediante un trabajo más profundo de ingeniería de atributos. Por otra parte, obtuvimos buenos resultados al evaluar nuestro modelo sobre datos no utilizados para el entrenamiento del modelo y sobre datos provenientes de una segunda porción del corpus de juegos en español (ƒ1 macro-promediada de 0.47), resultados que demuestran el buen poder de generalización de estos modelos. Finalmente, estudiamos las posibilidades de mejora de nuestro modelos al agregar más datos mediante curvas de aprendizaje. Concluimos que el uso de CNNs sobre espectrogramas constituye una herramienta competitiva y con gran potencial para la predicción de transiciones de turnos en conversaciones, lo cual es de gran importancia tanto para la tarea de análisis automático de conversaciones como para la mejorara del desempeño de los cada vez más utilizados asistentes virtuales. In any conversation between two individuals, an implicit exchange of signals occur that contributes to fluidity in the conversation. This is the case of the turn-taking cues — prosodic, syntactic or even gestural patterns that indicate events related to the turn management in a conversation and allows the listener to predict how the current turn will proceed. In the present, tasks related to the detection of these cues are mostly performed with the use of machine learning techniques, more precisely with recurrent neural networks. On the other hand, in different tasks of speech processing, significant improvements have been made with the combination of convolutional neural networks (CNNs) applied to spectrograms of the acoustic signal. The main goal of this thesis is to research the turn taking prediction task using CNNs. To do that, we used a dataset from a collaborative game in couples, where 34 people interact by voice to position an object on their screens. This corpus is available in Argentine Spanish and has been used in previous works for numerous tasks related to dialogue processing. Our results show that models based on CNNs achieve a macro-averaged ƒ1 score of over 0,45 - which is comparable with previous models where features have been built by a more profound work of feature engineering. Meanwhile, we achieved good results evaluating our model over data not used in training and with data from a second part of the Spanish games corpus ( macro-average ƒ1 score of 0.47). These results show the capacity of the generalization of these models. Finally, we studied the possibility of improving our models with training with more data by a learning curve. In conclusion, the use of CNNs on top of spectrograms constitutes a competitive tool with great potential for turn-taking prediction in conversation, which is of great importance both for automatic analysis of conversations and for the improvement of virtual assistants. Fil: Sicardi, Sebastían Matías. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
En una conversación hablada entre dos personas se da un intercambio implícito de señales que contribuyen a una mayor fluidez y naturalidad del diálogo. Este es el caso de las llamadas pistas de transición de turno (o turn-taking cues en inglés). Dichas pistas pueden entenderse como señales acústico-prosódicas, sintácticas o gestuales que anticipan eventos relacionados al manejo de turnos en una conversación y que permiten al interlocutor predecir cómo sucederá el turno actual. En la actualidad, los problemas relacionados a la detección de estas pistas son mayormente analizados mediante técnicas de aprendizaje automático, más precisamente con redes neuronales recurrentes. Por otro lado, en otras tareas de procesamiento de audio se realizaron grandes avances mediante la combinación de redes neuronales convolucionales (CNNs) aplicadas sobre el espectrograma de la señal acústica. El objetivo de esta tesis es investigar la tarea de predicción de transiciones de turno utilizando CNNs. Para ello, utilizamos datos provenientes de un corpus de juegos colaborativos en parejas, en donde 34 personas interactúan a través de su voz para lograr posicionar objetos en sus pantallas. Este corpus se encuentra en español argentino y ha sido utilizado en trabajos anteriores para diversas tareas relacionadas al procesamiento de diálogos. Nuestros resultados indican que los modelos basados en CNNs superan un puntaje ƒ1 macro-promediada de 0,45 — desempeño comparable con modelos anteriores y en donde los atributos han sido construidos mediante un trabajo más profundo de ingeniería de atributos. Por otra parte, obtuvimos buenos resultados al evaluar nuestro modelo sobre datos no utilizados para el entrenamiento del modelo y sobre datos provenientes de una segunda porción del corpus de juegos en español (ƒ1 macro-promediada de 0.47), resultados que demuestran el buen poder de generalización de estos modelos. Finalmente, estudiamos las posibilidades de mejora de nuestro modelos al agregar más datos mediante curvas de aprendizaje. Concluimos que el uso de CNNs sobre espectrogramas constituye una herramienta competitiva y con gran potencial para la predicción de transiciones de turnos en conversaciones, lo cual es de gran importancia tanto para la tarea de análisis automático de conversaciones como para la mejorara del desempeño de los cada vez más utilizados asistentes virtuales. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000575_Sicardi |
url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000575_Sicardi |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1842340721314496512 |
score |
12.623145 |