Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo hablado

Autores
Gravano, Agustin
Año de publicación
2010
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión publicada
Descripción
A medida que las tecnologías de procesamiento del habla continúan mejorando, gradualmente nos acercamos al viejo sueño de crear una máquina que hable. Los actuales sistemas interactivos de diálogo hablado permiten que los usuarios realicen tareas simples, tales como transacciones bancarias y reservas en hoteles, mediante la interacción verbal. Pese a ser relativamente exitosas, estas conversaciones humanocomputadora aún tienen un largo camino para recorrer en cuanto a su naturalidad: estos sistemas tienden a ser descriptos por los usuarios como “extraños” o incluso “intimidantes”. Entre las razones principales para esta falta de naturalidad, figura el modelado imperfecto de la variación prosódica, o cómo algunas propiedades del habla (tales como la entonación, la intensidad o el ritmo) cambian en las expresiones verbales. Los sistemas actuales todavía son incapaces de manejar estas características en forma correcta, tanto al entender el habla del usuario como para producir respuestas sintetizadas. La variación prosódica es extremadamente compleja en el habla espontánea, y se sabe que la afectan varios niveles de representación lingüística (léxica, sintáctica, semántica y pragmática). En el presente artículo, enfocamos nuestra atención en una dimensión particular de variación prosódica, conocida como “mimetización entre interlocutores”, que consiste en la alineación automática de características del habla entre los participantes de un diálogo. Tras un repaso general de la literatura de estos temas, describimos un proyecto de investigación en curso que busca modelar la mimetización prosódica en diálogos.
As speech processing technologies continue to improve, the old dream of creating a machine that talks gradually becomes real. The present interactive speech systems enable users to perform simple tasks such as banking transactions and hotel reservations, through verbal interaction. Despite being relatively successful, these human-computer conversations still have a long way to go regarding their naturalness: these systems tend to be described as “odd” or even “intimidating” by users. Among the main reasons for this lack of naturalness, is the flawed modeling of prosodic variation or the way some properties of speech (such as intonation, intensity and rhythm) change in verbal expressions. Current systems are still unable to handle these features correctly, both to understand the speech of the user as to produce synthesized responses. Prosodic variation is extremely complex in spontaneous speech, and it is well known that it´s affected by several levels of linguistic representation (lexical, syntactic, semantic and pragmatic). The present article focuses on a specific dimension of prosodic variation, known as “mimetization between interlocutors”, which consists in the automatic alignment of speech features between the participants of a dialogue. After a general overview of the literature on these subjects, a research project in process that seeks to model the prosodic mimetizatin in dialogues is described.
Fil: Gravano, Agustin. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina
Materia
Procesamiento del habla
Diálogo
Prosodia
Alineamiento
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/16545

id CONICETDig_5336f3b1ddeaa69881990bc3e3052967
oai_identifier_str oai:ri.conicet.gov.ar:11336/16545
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo habladoMimicking the interlocutor’s speech: models of speaker entrainment for improving the naturalness of spoken dialogue systemsGravano, AgustinProcesamiento del hablaDiálogoProsodiaAlineamientohttps://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1https://purl.org/becyt/ford/5.1https://purl.org/becyt/ford/5https://purl.org/becyt/ford/6.2https://purl.org/becyt/ford/6A medida que las tecnologías de procesamiento del habla continúan mejorando, gradualmente nos acercamos al viejo sueño de crear una máquina que hable. Los actuales sistemas interactivos de diálogo hablado permiten que los usuarios realicen tareas simples, tales como transacciones bancarias y reservas en hoteles, mediante la interacción verbal. Pese a ser relativamente exitosas, estas conversaciones humanocomputadora aún tienen un largo camino para recorrer en cuanto a su naturalidad: estos sistemas tienden a ser descriptos por los usuarios como “extraños” o incluso “intimidantes”. Entre las razones principales para esta falta de naturalidad, figura el modelado imperfecto de la variación prosódica, o cómo algunas propiedades del habla (tales como la entonación, la intensidad o el ritmo) cambian en las expresiones verbales. Los sistemas actuales todavía son incapaces de manejar estas características en forma correcta, tanto al entender el habla del usuario como para producir respuestas sintetizadas. La variación prosódica es extremadamente compleja en el habla espontánea, y se sabe que la afectan varios niveles de representación lingüística (léxica, sintáctica, semántica y pragmática). En el presente artículo, enfocamos nuestra atención en una dimensión particular de variación prosódica, conocida como “mimetización entre interlocutores”, que consiste en la alineación automática de características del habla entre los participantes de un diálogo. Tras un repaso general de la literatura de estos temas, describimos un proyecto de investigación en curso que busca modelar la mimetización prosódica en diálogos.As speech processing technologies continue to improve, the old dream of creating a machine that talks gradually becomes real. The present interactive speech systems enable users to perform simple tasks such as banking transactions and hotel reservations, through verbal interaction. Despite being relatively successful, these human-computer conversations still have a long way to go regarding their naturalness: these systems tend to be described as “odd” or even “intimidating” by users. Among the main reasons for this lack of naturalness, is the flawed modeling of prosodic variation or the way some properties of speech (such as intonation, intensity and rhythm) change in verbal expressions. Current systems are still unable to handle these features correctly, both to understand the speech of the user as to produce synthesized responses. Prosodic variation is extremely complex in spontaneous speech, and it is well known that it´s affected by several levels of linguistic representation (lexical, syntactic, semantic and pragmatic). The present article focuses on a specific dimension of prosodic variation, known as “mimetization between interlocutors”, which consists in the automatic alignment of speech features between the participants of a dialogue. After a general overview of the literature on these subjects, a research project in process that seeks to model the prosodic mimetizatin in dialogues is described.Fil: Gravano, Agustin. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; ArgentinaUniversidad de Ciencias Empresariales y Sociales2010-12info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/16545Gravano, Agustin; Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo hablado ; Universidad de Ciencias Empresariales y Sociales; Subjetividad y procesos cognitivos; 14; 2; 12-2010; 79-881666-244X1852-7310spainfo:eu-repo/semantics/altIdentifier/url/http://ref.scielo.org/pvsnktinfo:eu-repo/semantics/altIdentifier/url/http://www.redalyc.org/articulo.oa?id=339630256008info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-10-15T14:48:58Zoai:ri.conicet.gov.ar:11336/16545instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-10-15 14:48:59.308CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo hablado
Mimicking the interlocutor’s speech: models of speaker entrainment for improving the naturalness of spoken dialogue systems
title Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo hablado
spellingShingle Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo hablado
Gravano, Agustin
Procesamiento del habla
Diálogo
Prosodia
Alineamiento
title_short Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo hablado
title_full Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo hablado
title_fullStr Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo hablado
title_full_unstemmed Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo hablado
title_sort Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo hablado
dc.creator.none.fl_str_mv Gravano, Agustin
author Gravano, Agustin
author_facet Gravano, Agustin
author_role author
dc.subject.none.fl_str_mv Procesamiento del habla
Diálogo
Prosodia
Alineamiento
topic Procesamiento del habla
Diálogo
Prosodia
Alineamiento
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.2
https://purl.org/becyt/ford/1
https://purl.org/becyt/ford/5.1
https://purl.org/becyt/ford/5
https://purl.org/becyt/ford/6.2
https://purl.org/becyt/ford/6
dc.description.none.fl_txt_mv A medida que las tecnologías de procesamiento del habla continúan mejorando, gradualmente nos acercamos al viejo sueño de crear una máquina que hable. Los actuales sistemas interactivos de diálogo hablado permiten que los usuarios realicen tareas simples, tales como transacciones bancarias y reservas en hoteles, mediante la interacción verbal. Pese a ser relativamente exitosas, estas conversaciones humanocomputadora aún tienen un largo camino para recorrer en cuanto a su naturalidad: estos sistemas tienden a ser descriptos por los usuarios como “extraños” o incluso “intimidantes”. Entre las razones principales para esta falta de naturalidad, figura el modelado imperfecto de la variación prosódica, o cómo algunas propiedades del habla (tales como la entonación, la intensidad o el ritmo) cambian en las expresiones verbales. Los sistemas actuales todavía son incapaces de manejar estas características en forma correcta, tanto al entender el habla del usuario como para producir respuestas sintetizadas. La variación prosódica es extremadamente compleja en el habla espontánea, y se sabe que la afectan varios niveles de representación lingüística (léxica, sintáctica, semántica y pragmática). En el presente artículo, enfocamos nuestra atención en una dimensión particular de variación prosódica, conocida como “mimetización entre interlocutores”, que consiste en la alineación automática de características del habla entre los participantes de un diálogo. Tras un repaso general de la literatura de estos temas, describimos un proyecto de investigación en curso que busca modelar la mimetización prosódica en diálogos.
As speech processing technologies continue to improve, the old dream of creating a machine that talks gradually becomes real. The present interactive speech systems enable users to perform simple tasks such as banking transactions and hotel reservations, through verbal interaction. Despite being relatively successful, these human-computer conversations still have a long way to go regarding their naturalness: these systems tend to be described as “odd” or even “intimidating” by users. Among the main reasons for this lack of naturalness, is the flawed modeling of prosodic variation or the way some properties of speech (such as intonation, intensity and rhythm) change in verbal expressions. Current systems are still unable to handle these features correctly, both to understand the speech of the user as to produce synthesized responses. Prosodic variation is extremely complex in spontaneous speech, and it is well known that it´s affected by several levels of linguistic representation (lexical, syntactic, semantic and pragmatic). The present article focuses on a specific dimension of prosodic variation, known as “mimetization between interlocutors”, which consists in the automatic alignment of speech features between the participants of a dialogue. After a general overview of the literature on these subjects, a research project in process that seeks to model the prosodic mimetizatin in dialogues is described.
Fil: Gravano, Agustin. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina
description A medida que las tecnologías de procesamiento del habla continúan mejorando, gradualmente nos acercamos al viejo sueño de crear una máquina que hable. Los actuales sistemas interactivos de diálogo hablado permiten que los usuarios realicen tareas simples, tales como transacciones bancarias y reservas en hoteles, mediante la interacción verbal. Pese a ser relativamente exitosas, estas conversaciones humanocomputadora aún tienen un largo camino para recorrer en cuanto a su naturalidad: estos sistemas tienden a ser descriptos por los usuarios como “extraños” o incluso “intimidantes”. Entre las razones principales para esta falta de naturalidad, figura el modelado imperfecto de la variación prosódica, o cómo algunas propiedades del habla (tales como la entonación, la intensidad o el ritmo) cambian en las expresiones verbales. Los sistemas actuales todavía son incapaces de manejar estas características en forma correcta, tanto al entender el habla del usuario como para producir respuestas sintetizadas. La variación prosódica es extremadamente compleja en el habla espontánea, y se sabe que la afectan varios niveles de representación lingüística (léxica, sintáctica, semántica y pragmática). En el presente artículo, enfocamos nuestra atención en una dimensión particular de variación prosódica, conocida como “mimetización entre interlocutores”, que consiste en la alineación automática de características del habla entre los participantes de un diálogo. Tras un repaso general de la literatura de estos temas, describimos un proyecto de investigación en curso que busca modelar la mimetización prosódica en diálogos.
publishDate 2010
dc.date.none.fl_str_mv 2010-12
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/16545
Gravano, Agustin; Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo hablado ; Universidad de Ciencias Empresariales y Sociales; Subjetividad y procesos cognitivos; 14; 2; 12-2010; 79-88
1666-244X
1852-7310
url http://hdl.handle.net/11336/16545
identifier_str_mv Gravano, Agustin; Modelado de la mimetización entre interlocutores para mejorar la naturalidad de sistemas de diálogo hablado ; Universidad de Ciencias Empresariales y Sociales; Subjetividad y procesos cognitivos; 14; 2; 12-2010; 79-88
1666-244X
1852-7310
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/http://ref.scielo.org/pvsnkt
info:eu-repo/semantics/altIdentifier/url/http://www.redalyc.org/articulo.oa?id=339630256008
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidad de Ciencias Empresariales y Sociales
publisher.none.fl_str_mv Universidad de Ciencias Empresariales y Sociales
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1846083011633741824
score 13.22299