Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno

Autores
Scherman, Jonathan
Año de publicación
2024
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Brusco, Pablo
Descripción
En una conversación hablada entre dos personas, existe una noción implícita de manejo de turnos que permite un intercambio fluido de mensajes. Esto sucede a través de distintos tipos de señales (acústicas, prosódicas, léxicas e incluso gestuales) que los hablantes producen y que, de manera combinada, afectan la manera en la que se desarrollarán los turnos de la conversación. Por ejemplo, se ha estudiado cómo el uso de palabras de relleno (tales como “em...” o “este...”) suele indicar que el hablante tiene la intención de mantener el turno. Entender cuál es la dinámica del manejo de turnos y construir sistemas que puedan identificar y clasificar distintas transiciones de manera automática ha ganado mucha relevancia en las últimas décadas debido a las múltiples aplicaciones prácticas en el mundo real, siendo los sistemas de diálogo hablado (como Alexa o Siri) y el análisis de grandes volúmenes de datos sus principales aplicaciones. En particular, varios estudios han mostrado que, en adición a las características acústico-prosódicas, las características léxicas y sintácticas de la conversación contienen información relevante para entender la mecánica del manejo de turnos. En esta tesis, nos enfocamos en el desarrollo de una herramienta de etiquetado offline de transiciones de turno en conversaciones completas de tipo humano-humano, para lo cual construimos distintas variantes de modelos multimodales sobre un corpus compuesto por conversaciones diádicas orientadas a tareas, en inglés y español. Partimos de un modelo preexistente basado en redes neuronales recurrentes bidireccionales, que extendemos con atributos léxicos y sintácticos. Además, consideramos modelos alternativos basados en arquitecturas multiescala. Para cada uno de los modelos desarrollados, evaluamos la capacidad de generalización en conversaciones tanto en el mismo idioma en el que fueron entrenados como en otros. Los resultados obtenidos muestran que la inclusión de estos atributos otorgó mejoras para algunas de las variantes propuestas de hasta un 15 % relativo en el subconjunto de desarrollo y un 9 % relativo en el subconjunto de control al ser evaluados en conversaciones nuevas del mismo idioma, mientras que observamos disminuciones en el rendimiento al variar entre idiomas. Por su parte, no pudimos evidenciar mejoras en la propuesta multiescala, aunque creemos que tiene potencial para hacerlo.
During dyadic spoken conversations, there is an implicit notion of turn-taking that allows for a smooth exchange of messages between both speakers. This happens through different kinds of signals (acoustic, prosodic, lexical, and even gestural) that speakers produce and that, when combined, affect the way the turns of the conversation develop. For example, it is well known that the use of filler words (such as “um...” or “like...”) often indicates that the speaker intends to hold the floor. Understanding the dynamics of turn-taking and building systems that can automatically identify and classify different transitions has gained much relevance in recent decades due to the numerous practical real-world applications, being spoken dialogue systems (such as Alexa or Siri) and the analysis of large volumes of data its main applications. In particular, several studies have shown that, in addition to acoustic-prosodic cues, the lexical and syntactic characteristics of the speakers hold relevant information for understanding the mechanics of turn-taking. In this thesis, we focus on the development of an offline turn-taking transition labeling tool for processing human-human conversations end-to-end, for which we built different variants of multimodal models using a task-oriented corpus of dyadic conversations in english and spanish. We start from a pre-existing bidirectional recurrent neural network model, which we later extend by including lexical and syntactic features. Additionally, we consider alternative models based on multiscale architectures. For each of the developed models, we evaluate the generalization capabilities in conversations from the same language they were trained on and in others as well. The obtained results show that the inclusion of these features yields improvements of up to 15 % relative in the development subset and 9 % relative in control for some of the proposed variants in new conversations from the same language, while we observed performance decreases while switching between languages. Furthermore, we could not evidence improvements in the multiscale approach, although we believe it has the potential to do so.
Fil: Scherman, Jonathan. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
MANEJO DE TURNOS
DIALOGO HABLADO
INGLES, ESPAÑOL
APRENDIZAJE AUTOMATICO
REDES NEURONALES
BERT
ATRIBUTOS LEXICOS
ATRIBUTOS SINTACTICOS
TURN-TAKING
SPOKEN DIALOGUE
ENGLISH
SPANISH
MACHINE LEARNING
NEURAL NETWORKS
BERT
LEXICAL ATTRIBUTES
SYNTACTIC ATTRIBUTES
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000531_Scherman

id BDUBAFCEN_60ba31c9dfe7ee55d001c57f015051c2
oai_identifier_str seminario:seminario_nCOM000531_Scherman
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turnoLexical and syntactic inclusion in offline turn-taking labeling modelsScherman, JonathanMANEJO DE TURNOSDIALOGO HABLADOINGLES, ESPAÑOLAPRENDIZAJE AUTOMATICOREDES NEURONALESBERTATRIBUTOS LEXICOSATRIBUTOS SINTACTICOSTURN-TAKINGSPOKEN DIALOGUEENGLISHSPANISHMACHINE LEARNINGNEURAL NETWORKSBERTLEXICAL ATTRIBUTESSYNTACTIC ATTRIBUTESEn una conversación hablada entre dos personas, existe una noción implícita de manejo de turnos que permite un intercambio fluido de mensajes. Esto sucede a través de distintos tipos de señales (acústicas, prosódicas, léxicas e incluso gestuales) que los hablantes producen y que, de manera combinada, afectan la manera en la que se desarrollarán los turnos de la conversación. Por ejemplo, se ha estudiado cómo el uso de palabras de relleno (tales como “em...” o “este...”) suele indicar que el hablante tiene la intención de mantener el turno. Entender cuál es la dinámica del manejo de turnos y construir sistemas que puedan identificar y clasificar distintas transiciones de manera automática ha ganado mucha relevancia en las últimas décadas debido a las múltiples aplicaciones prácticas en el mundo real, siendo los sistemas de diálogo hablado (como Alexa o Siri) y el análisis de grandes volúmenes de datos sus principales aplicaciones. En particular, varios estudios han mostrado que, en adición a las características acústico-prosódicas, las características léxicas y sintácticas de la conversación contienen información relevante para entender la mecánica del manejo de turnos. En esta tesis, nos enfocamos en el desarrollo de una herramienta de etiquetado offline de transiciones de turno en conversaciones completas de tipo humano-humano, para lo cual construimos distintas variantes de modelos multimodales sobre un corpus compuesto por conversaciones diádicas orientadas a tareas, en inglés y español. Partimos de un modelo preexistente basado en redes neuronales recurrentes bidireccionales, que extendemos con atributos léxicos y sintácticos. Además, consideramos modelos alternativos basados en arquitecturas multiescala. Para cada uno de los modelos desarrollados, evaluamos la capacidad de generalización en conversaciones tanto en el mismo idioma en el que fueron entrenados como en otros. Los resultados obtenidos muestran que la inclusión de estos atributos otorgó mejoras para algunas de las variantes propuestas de hasta un 15 % relativo en el subconjunto de desarrollo y un 9 % relativo en el subconjunto de control al ser evaluados en conversaciones nuevas del mismo idioma, mientras que observamos disminuciones en el rendimiento al variar entre idiomas. Por su parte, no pudimos evidenciar mejoras en la propuesta multiescala, aunque creemos que tiene potencial para hacerlo.During dyadic spoken conversations, there is an implicit notion of turn-taking that allows for a smooth exchange of messages between both speakers. This happens through different kinds of signals (acoustic, prosodic, lexical, and even gestural) that speakers produce and that, when combined, affect the way the turns of the conversation develop. For example, it is well known that the use of filler words (such as “um...” or “like...”) often indicates that the speaker intends to hold the floor. Understanding the dynamics of turn-taking and building systems that can automatically identify and classify different transitions has gained much relevance in recent decades due to the numerous practical real-world applications, being spoken dialogue systems (such as Alexa or Siri) and the analysis of large volumes of data its main applications. In particular, several studies have shown that, in addition to acoustic-prosodic cues, the lexical and syntactic characteristics of the speakers hold relevant information for understanding the mechanics of turn-taking. In this thesis, we focus on the development of an offline turn-taking transition labeling tool for processing human-human conversations end-to-end, for which we built different variants of multimodal models using a task-oriented corpus of dyadic conversations in english and spanish. We start from a pre-existing bidirectional recurrent neural network model, which we later extend by including lexical and syntactic features. Additionally, we consider alternative models based on multiscale architectures. For each of the developed models, we evaluate the generalization capabilities in conversations from the same language they were trained on and in others as well. The obtained results show that the inclusion of these features yields improvements of up to 15 % relative in the development subset and 9 % relative in control for some of the proposed variants in new conversations from the same language, while we observed performance decreases while switching between languages. Furthermore, we could not evidence improvements in the multiscale approach, although we believe it has the potential to do so.Fil: Scherman, Jonathan. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesBrusco, Pablo2024info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000531_Schermanspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-10-16T09:31:05Zseminario:seminario_nCOM000531_SchermanInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-10-16 09:31:06.177Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno
Lexical and syntactic inclusion in offline turn-taking labeling models
title Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno
spellingShingle Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno
Scherman, Jonathan
MANEJO DE TURNOS
DIALOGO HABLADO
INGLES, ESPAÑOL
APRENDIZAJE AUTOMATICO
REDES NEURONALES
BERT
ATRIBUTOS LEXICOS
ATRIBUTOS SINTACTICOS
TURN-TAKING
SPOKEN DIALOGUE
ENGLISH
SPANISH
MACHINE LEARNING
NEURAL NETWORKS
BERT
LEXICAL ATTRIBUTES
SYNTACTIC ATTRIBUTES
title_short Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno
title_full Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno
title_fullStr Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno
title_full_unstemmed Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno
title_sort Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno
dc.creator.none.fl_str_mv Scherman, Jonathan
author Scherman, Jonathan
author_facet Scherman, Jonathan
author_role author
dc.contributor.none.fl_str_mv Brusco, Pablo
dc.subject.none.fl_str_mv MANEJO DE TURNOS
DIALOGO HABLADO
INGLES, ESPAÑOL
APRENDIZAJE AUTOMATICO
REDES NEURONALES
BERT
ATRIBUTOS LEXICOS
ATRIBUTOS SINTACTICOS
TURN-TAKING
SPOKEN DIALOGUE
ENGLISH
SPANISH
MACHINE LEARNING
NEURAL NETWORKS
BERT
LEXICAL ATTRIBUTES
SYNTACTIC ATTRIBUTES
topic MANEJO DE TURNOS
DIALOGO HABLADO
INGLES, ESPAÑOL
APRENDIZAJE AUTOMATICO
REDES NEURONALES
BERT
ATRIBUTOS LEXICOS
ATRIBUTOS SINTACTICOS
TURN-TAKING
SPOKEN DIALOGUE
ENGLISH
SPANISH
MACHINE LEARNING
NEURAL NETWORKS
BERT
LEXICAL ATTRIBUTES
SYNTACTIC ATTRIBUTES
dc.description.none.fl_txt_mv En una conversación hablada entre dos personas, existe una noción implícita de manejo de turnos que permite un intercambio fluido de mensajes. Esto sucede a través de distintos tipos de señales (acústicas, prosódicas, léxicas e incluso gestuales) que los hablantes producen y que, de manera combinada, afectan la manera en la que se desarrollarán los turnos de la conversación. Por ejemplo, se ha estudiado cómo el uso de palabras de relleno (tales como “em...” o “este...”) suele indicar que el hablante tiene la intención de mantener el turno. Entender cuál es la dinámica del manejo de turnos y construir sistemas que puedan identificar y clasificar distintas transiciones de manera automática ha ganado mucha relevancia en las últimas décadas debido a las múltiples aplicaciones prácticas en el mundo real, siendo los sistemas de diálogo hablado (como Alexa o Siri) y el análisis de grandes volúmenes de datos sus principales aplicaciones. En particular, varios estudios han mostrado que, en adición a las características acústico-prosódicas, las características léxicas y sintácticas de la conversación contienen información relevante para entender la mecánica del manejo de turnos. En esta tesis, nos enfocamos en el desarrollo de una herramienta de etiquetado offline de transiciones de turno en conversaciones completas de tipo humano-humano, para lo cual construimos distintas variantes de modelos multimodales sobre un corpus compuesto por conversaciones diádicas orientadas a tareas, en inglés y español. Partimos de un modelo preexistente basado en redes neuronales recurrentes bidireccionales, que extendemos con atributos léxicos y sintácticos. Además, consideramos modelos alternativos basados en arquitecturas multiescala. Para cada uno de los modelos desarrollados, evaluamos la capacidad de generalización en conversaciones tanto en el mismo idioma en el que fueron entrenados como en otros. Los resultados obtenidos muestran que la inclusión de estos atributos otorgó mejoras para algunas de las variantes propuestas de hasta un 15 % relativo en el subconjunto de desarrollo y un 9 % relativo en el subconjunto de control al ser evaluados en conversaciones nuevas del mismo idioma, mientras que observamos disminuciones en el rendimiento al variar entre idiomas. Por su parte, no pudimos evidenciar mejoras en la propuesta multiescala, aunque creemos que tiene potencial para hacerlo.
During dyadic spoken conversations, there is an implicit notion of turn-taking that allows for a smooth exchange of messages between both speakers. This happens through different kinds of signals (acoustic, prosodic, lexical, and even gestural) that speakers produce and that, when combined, affect the way the turns of the conversation develop. For example, it is well known that the use of filler words (such as “um...” or “like...”) often indicates that the speaker intends to hold the floor. Understanding the dynamics of turn-taking and building systems that can automatically identify and classify different transitions has gained much relevance in recent decades due to the numerous practical real-world applications, being spoken dialogue systems (such as Alexa or Siri) and the analysis of large volumes of data its main applications. In particular, several studies have shown that, in addition to acoustic-prosodic cues, the lexical and syntactic characteristics of the speakers hold relevant information for understanding the mechanics of turn-taking. In this thesis, we focus on the development of an offline turn-taking transition labeling tool for processing human-human conversations end-to-end, for which we built different variants of multimodal models using a task-oriented corpus of dyadic conversations in english and spanish. We start from a pre-existing bidirectional recurrent neural network model, which we later extend by including lexical and syntactic features. Additionally, we consider alternative models based on multiscale architectures. For each of the developed models, we evaluate the generalization capabilities in conversations from the same language they were trained on and in others as well. The obtained results show that the inclusion of these features yields improvements of up to 15 % relative in the development subset and 9 % relative in control for some of the proposed variants in new conversations from the same language, while we observed performance decreases while switching between languages. Furthermore, we could not evidence improvements in the multiscale approach, although we believe it has the potential to do so.
Fil: Scherman, Jonathan. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description En una conversación hablada entre dos personas, existe una noción implícita de manejo de turnos que permite un intercambio fluido de mensajes. Esto sucede a través de distintos tipos de señales (acústicas, prosódicas, léxicas e incluso gestuales) que los hablantes producen y que, de manera combinada, afectan la manera en la que se desarrollarán los turnos de la conversación. Por ejemplo, se ha estudiado cómo el uso de palabras de relleno (tales como “em...” o “este...”) suele indicar que el hablante tiene la intención de mantener el turno. Entender cuál es la dinámica del manejo de turnos y construir sistemas que puedan identificar y clasificar distintas transiciones de manera automática ha ganado mucha relevancia en las últimas décadas debido a las múltiples aplicaciones prácticas en el mundo real, siendo los sistemas de diálogo hablado (como Alexa o Siri) y el análisis de grandes volúmenes de datos sus principales aplicaciones. En particular, varios estudios han mostrado que, en adición a las características acústico-prosódicas, las características léxicas y sintácticas de la conversación contienen información relevante para entender la mecánica del manejo de turnos. En esta tesis, nos enfocamos en el desarrollo de una herramienta de etiquetado offline de transiciones de turno en conversaciones completas de tipo humano-humano, para lo cual construimos distintas variantes de modelos multimodales sobre un corpus compuesto por conversaciones diádicas orientadas a tareas, en inglés y español. Partimos de un modelo preexistente basado en redes neuronales recurrentes bidireccionales, que extendemos con atributos léxicos y sintácticos. Además, consideramos modelos alternativos basados en arquitecturas multiescala. Para cada uno de los modelos desarrollados, evaluamos la capacidad de generalización en conversaciones tanto en el mismo idioma en el que fueron entrenados como en otros. Los resultados obtenidos muestran que la inclusión de estos atributos otorgó mejoras para algunas de las variantes propuestas de hasta un 15 % relativo en el subconjunto de desarrollo y un 9 % relativo en el subconjunto de control al ser evaluados en conversaciones nuevas del mismo idioma, mientras que observamos disminuciones en el rendimiento al variar entre idiomas. Por su parte, no pudimos evidenciar mejoras en la propuesta multiescala, aunque creemos que tiene potencial para hacerlo.
publishDate 2024
dc.date.none.fl_str_mv 2024
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000531_Scherman
url https://hdl.handle.net/20.500.12110/seminario_nCOM000531_Scherman
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1846142860991135744
score 12.712165