Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla

Autores
Assaneo, María Florencia
Año de publicación
2014
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión publicada
Colaborador/a o director/a de tesis
Trevisan, Marcos Alberto
Descripción
Desde el punto de vista biológico el proceso del habla puede separarse endos etapas moduladas entre sí: la producción y la percepción. En este trabajonos ocupamos de ambas, concentrándonos especialmente en la primera. El sistema vocal humano está formado por dos grandes bloques: las cuerdasvocales y el tracto vocal. Las cuerdas vocales constituyen la fuente acústica,determinando la entonación del discurso, mientras que el contenido fonético (los sonidos propios de la lengua) es definido por la dinámica del tractovocal. En esta tesis presentamos un modelo completo de producción vocal,incluyendo el estudio dinámico de un modelo detallado de cuerdas vocales ysu adaptación a un modelo de baja dimensión del tracto vocal. Para evaluar la calidad de la voz sintetizada con el modelo, utilizamosuna combinación de test perceptuales y de resonancia magnética funcional,cuyos resultados muestran que la voz sintética es indistinguible de segmentosde voz real. Los sintetizadores basados en la física de la producción de vozpermiten además el estudio de la percepción de voz controlando parámetrosbiológicos. En particular, en este trabajo mostramos que la identidad de lavoz está codificada en términos de las dimensiones relativas entre las cuerdasvocales y el tracto vocal. Usamos este modelo de voz verificado experimentalmente para responderpreguntas de la biolingüística y la biomimética. En primer lugar, investigamosel rol de la física del aparato vocal en la formación de las onomatopeyas. A pesar de considerarse palabras vinculadas directamente con la imitación,es difícil establecer qué se preserva acústicamente entre los sonidos y susonomatopeyas. Utilizamos el modelo vocal para mostrar que las configuracionesdel tracto vocal que producen los sonidos más parecidos a los originalescorresponden a consonantes co-articuladas. Estos pares vocal-consonante secorresponden, además, con las sílabas más estables de las onomatopeyas endistintos idiomas, sugiriendo un mecanismo por el cual la imitación vocal permite asociar sonidos simples a estructuras de habla más complejas. Por otra parte, nos preguntamos cuál es la dimensionalidad del espaciomotor que gobierna la producción de habla. Para abordar este problema diseñamos un dispositivo experimental que permite monitorear tres puntos dela cavidad oral durante el discurso. Con esta herramienta, logramos una descripción discreta para las coordenadas motoras de las vocales y consonantesoclusivas del español, mostrando además la viabilidad de controlar el modelode producción vocal con variables anatómicas para la síntesis de voz entiempo real a partir de los gestos anatómicos producidos durante el habla.
From a biological point of view the ability of speaking can be split intwo intermodulated processes: production and perception. In this work weinvestigated both of them from a physical perspective, focusing on the firstone. The physical process associated with the production of voice rely on thevocal anatomy, composed of two main blocks: the vocal folds and the vocaltract. The folds are the acoustic source that specify the intonation of thespeech, while the phonetic content is determined by the vocal tract dynamics. In this thesis we developed a complete model of voice production, we studiedthe different dynamic regimes of a detailed mathematical model of the folds,and adjusted it to a low dimensional model of the tract. This model allowsto synthesize voice by controlling physical parameters of the vocal system. In order to evaluate the quality of the synthetic voices, we carried outa combination of perceptual and fMRI tests, showing that synthetic voicesare indistinguishable from real ones. Such an articulatory synthesizer, basedon the physics processes involved in the voice production, allows to studythe perceptual effects of precise variations in the anatomical parameters. Weused it to show that the voice identity is encoded in the relative dimensionsof the tract and the folds. Using this validated model, we addressed two specific questions. First,we investigated the role of imitation within the generation of onomatopoeias. Despite it is widely know that onomatopoeias are based on imitation, itremains unclear which are the acoustic features shared between the soundsand their onomatopoeias. Using our vocal model we show that co-articulated consonants are the sounds that best fit the original noises. This pairs ofvowel-consonant also are the more stable syllables within the onomatopoeiasacross languages, suggesting a mechanism through which vocal imitation associatessimple sounds with more complex speech structures. We also inquire about the dimension of the vocal motor space controllingthe production of speech, in order to study this problem we designed an experimentaldevice that allows monitoring 3 points of the upper vocal tractwhile speaking. Making use of this novel tool, we reach a discrete descriptionfor the motor coordinates of Spanish vowels and occlusive consonants. Thisresults show the plausibility to control the vocal model with direct anatomicalmeasures, synthesizing speech in real time from simple motor gesturesproduced during the vocalization.
Fil: Assaneo, María Florencia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
PRODUCCION Y PERCEPCION DE VOZ
BIOLINGÜISTICA
MODELADO MATEMATICO
DINAMICA NOLINEAL
RESONANCIA MAGNETICA FUNCIONAL
SPEECH PERCEPTION AND PRODUCTION
BIOLINGUISTICS
MATHEMATICAL MODELLING
NONLINEAR DYNAMICS
FMRI
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
tesis:tesis_n5601_Assaneo

id BDUBAFCEN_8ff5f816e1b271fdb2ddf61f2073430d
oai_identifier_str tesis:tesis_n5601_Assaneo
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de hablaModeling of the human vocal system and its application to studies of speech perception and productionAssaneo, María FlorenciaPRODUCCION Y PERCEPCION DE VOZBIOLINGÜISTICAMODELADO MATEMATICODINAMICA NOLINEALRESONANCIA MAGNETICA FUNCIONALSPEECH PERCEPTION AND PRODUCTIONBIOLINGUISTICSMATHEMATICAL MODELLINGNONLINEAR DYNAMICSFMRIDesde el punto de vista biológico el proceso del habla puede separarse endos etapas moduladas entre sí: la producción y la percepción. En este trabajonos ocupamos de ambas, concentrándonos especialmente en la primera. El sistema vocal humano está formado por dos grandes bloques: las cuerdasvocales y el tracto vocal. Las cuerdas vocales constituyen la fuente acústica,determinando la entonación del discurso, mientras que el contenido fonético (los sonidos propios de la lengua) es definido por la dinámica del tractovocal. En esta tesis presentamos un modelo completo de producción vocal,incluyendo el estudio dinámico de un modelo detallado de cuerdas vocales ysu adaptación a un modelo de baja dimensión del tracto vocal. Para evaluar la calidad de la voz sintetizada con el modelo, utilizamosuna combinación de test perceptuales y de resonancia magnética funcional,cuyos resultados muestran que la voz sintética es indistinguible de segmentosde voz real. Los sintetizadores basados en la física de la producción de vozpermiten además el estudio de la percepción de voz controlando parámetrosbiológicos. En particular, en este trabajo mostramos que la identidad de lavoz está codificada en términos de las dimensiones relativas entre las cuerdasvocales y el tracto vocal. Usamos este modelo de voz verificado experimentalmente para responderpreguntas de la biolingüística y la biomimética. En primer lugar, investigamosel rol de la física del aparato vocal en la formación de las onomatopeyas. A pesar de considerarse palabras vinculadas directamente con la imitación,es difícil establecer qué se preserva acústicamente entre los sonidos y susonomatopeyas. Utilizamos el modelo vocal para mostrar que las configuracionesdel tracto vocal que producen los sonidos más parecidos a los originalescorresponden a consonantes co-articuladas. Estos pares vocal-consonante secorresponden, además, con las sílabas más estables de las onomatopeyas endistintos idiomas, sugiriendo un mecanismo por el cual la imitación vocal permite asociar sonidos simples a estructuras de habla más complejas. Por otra parte, nos preguntamos cuál es la dimensionalidad del espaciomotor que gobierna la producción de habla. Para abordar este problema diseñamos un dispositivo experimental que permite monitorear tres puntos dela cavidad oral durante el discurso. Con esta herramienta, logramos una descripción discreta para las coordenadas motoras de las vocales y consonantesoclusivas del español, mostrando además la viabilidad de controlar el modelode producción vocal con variables anatómicas para la síntesis de voz entiempo real a partir de los gestos anatómicos producidos durante el habla.From a biological point of view the ability of speaking can be split intwo intermodulated processes: production and perception. In this work weinvestigated both of them from a physical perspective, focusing on the firstone. The physical process associated with the production of voice rely on thevocal anatomy, composed of two main blocks: the vocal folds and the vocaltract. The folds are the acoustic source that specify the intonation of thespeech, while the phonetic content is determined by the vocal tract dynamics. In this thesis we developed a complete model of voice production, we studiedthe different dynamic regimes of a detailed mathematical model of the folds,and adjusted it to a low dimensional model of the tract. This model allowsto synthesize voice by controlling physical parameters of the vocal system. In order to evaluate the quality of the synthetic voices, we carried outa combination of perceptual and fMRI tests, showing that synthetic voicesare indistinguishable from real ones. Such an articulatory synthesizer, basedon the physics processes involved in the voice production, allows to studythe perceptual effects of precise variations in the anatomical parameters. Weused it to show that the voice identity is encoded in the relative dimensionsof the tract and the folds. Using this validated model, we addressed two specific questions. First,we investigated the role of imitation within the generation of onomatopoeias. Despite it is widely know that onomatopoeias are based on imitation, itremains unclear which are the acoustic features shared between the soundsand their onomatopoeias. Using our vocal model we show that co-articulated consonants are the sounds that best fit the original noises. This pairs ofvowel-consonant also are the more stable syllables within the onomatopoeiasacross languages, suggesting a mechanism through which vocal imitation associatessimple sounds with more complex speech structures. We also inquire about the dimension of the vocal motor space controllingthe production of speech, in order to study this problem we designed an experimentaldevice that allows monitoring 3 points of the upper vocal tractwhile speaking. Making use of this novel tool, we reach a discrete descriptionfor the motor coordinates of Spanish vowels and occlusive consonants. Thisresults show the plausibility to control the vocal model with direct anatomicalmeasures, synthesizing speech in real time from simple motor gesturesproduced during the vocalization.Fil: Assaneo, María Florencia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesTrevisan, Marcos Alberto2014-09-09info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n5601_Assaneospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:42:49Ztesis:tesis_n5601_AssaneoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:42:50.387Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
Modeling of the human vocal system and its application to studies of speech perception and production
title Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
spellingShingle Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
Assaneo, María Florencia
PRODUCCION Y PERCEPCION DE VOZ
BIOLINGÜISTICA
MODELADO MATEMATICO
DINAMICA NOLINEAL
RESONANCIA MAGNETICA FUNCIONAL
SPEECH PERCEPTION AND PRODUCTION
BIOLINGUISTICS
MATHEMATICAL MODELLING
NONLINEAR DYNAMICS
FMRI
title_short Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
title_full Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
title_fullStr Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
title_full_unstemmed Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
title_sort Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
dc.creator.none.fl_str_mv Assaneo, María Florencia
author Assaneo, María Florencia
author_facet Assaneo, María Florencia
author_role author
dc.contributor.none.fl_str_mv Trevisan, Marcos Alberto
dc.subject.none.fl_str_mv PRODUCCION Y PERCEPCION DE VOZ
BIOLINGÜISTICA
MODELADO MATEMATICO
DINAMICA NOLINEAL
RESONANCIA MAGNETICA FUNCIONAL
SPEECH PERCEPTION AND PRODUCTION
BIOLINGUISTICS
MATHEMATICAL MODELLING
NONLINEAR DYNAMICS
FMRI
topic PRODUCCION Y PERCEPCION DE VOZ
BIOLINGÜISTICA
MODELADO MATEMATICO
DINAMICA NOLINEAL
RESONANCIA MAGNETICA FUNCIONAL
SPEECH PERCEPTION AND PRODUCTION
BIOLINGUISTICS
MATHEMATICAL MODELLING
NONLINEAR DYNAMICS
FMRI
dc.description.none.fl_txt_mv Desde el punto de vista biológico el proceso del habla puede separarse endos etapas moduladas entre sí: la producción y la percepción. En este trabajonos ocupamos de ambas, concentrándonos especialmente en la primera. El sistema vocal humano está formado por dos grandes bloques: las cuerdasvocales y el tracto vocal. Las cuerdas vocales constituyen la fuente acústica,determinando la entonación del discurso, mientras que el contenido fonético (los sonidos propios de la lengua) es definido por la dinámica del tractovocal. En esta tesis presentamos un modelo completo de producción vocal,incluyendo el estudio dinámico de un modelo detallado de cuerdas vocales ysu adaptación a un modelo de baja dimensión del tracto vocal. Para evaluar la calidad de la voz sintetizada con el modelo, utilizamosuna combinación de test perceptuales y de resonancia magnética funcional,cuyos resultados muestran que la voz sintética es indistinguible de segmentosde voz real. Los sintetizadores basados en la física de la producción de vozpermiten además el estudio de la percepción de voz controlando parámetrosbiológicos. En particular, en este trabajo mostramos que la identidad de lavoz está codificada en términos de las dimensiones relativas entre las cuerdasvocales y el tracto vocal. Usamos este modelo de voz verificado experimentalmente para responderpreguntas de la biolingüística y la biomimética. En primer lugar, investigamosel rol de la física del aparato vocal en la formación de las onomatopeyas. A pesar de considerarse palabras vinculadas directamente con la imitación,es difícil establecer qué se preserva acústicamente entre los sonidos y susonomatopeyas. Utilizamos el modelo vocal para mostrar que las configuracionesdel tracto vocal que producen los sonidos más parecidos a los originalescorresponden a consonantes co-articuladas. Estos pares vocal-consonante secorresponden, además, con las sílabas más estables de las onomatopeyas endistintos idiomas, sugiriendo un mecanismo por el cual la imitación vocal permite asociar sonidos simples a estructuras de habla más complejas. Por otra parte, nos preguntamos cuál es la dimensionalidad del espaciomotor que gobierna la producción de habla. Para abordar este problema diseñamos un dispositivo experimental que permite monitorear tres puntos dela cavidad oral durante el discurso. Con esta herramienta, logramos una descripción discreta para las coordenadas motoras de las vocales y consonantesoclusivas del español, mostrando además la viabilidad de controlar el modelode producción vocal con variables anatómicas para la síntesis de voz entiempo real a partir de los gestos anatómicos producidos durante el habla.
From a biological point of view the ability of speaking can be split intwo intermodulated processes: production and perception. In this work weinvestigated both of them from a physical perspective, focusing on the firstone. The physical process associated with the production of voice rely on thevocal anatomy, composed of two main blocks: the vocal folds and the vocaltract. The folds are the acoustic source that specify the intonation of thespeech, while the phonetic content is determined by the vocal tract dynamics. In this thesis we developed a complete model of voice production, we studiedthe different dynamic regimes of a detailed mathematical model of the folds,and adjusted it to a low dimensional model of the tract. This model allowsto synthesize voice by controlling physical parameters of the vocal system. In order to evaluate the quality of the synthetic voices, we carried outa combination of perceptual and fMRI tests, showing that synthetic voicesare indistinguishable from real ones. Such an articulatory synthesizer, basedon the physics processes involved in the voice production, allows to studythe perceptual effects of precise variations in the anatomical parameters. Weused it to show that the voice identity is encoded in the relative dimensionsof the tract and the folds. Using this validated model, we addressed two specific questions. First,we investigated the role of imitation within the generation of onomatopoeias. Despite it is widely know that onomatopoeias are based on imitation, itremains unclear which are the acoustic features shared between the soundsand their onomatopoeias. Using our vocal model we show that co-articulated consonants are the sounds that best fit the original noises. This pairs ofvowel-consonant also are the more stable syllables within the onomatopoeiasacross languages, suggesting a mechanism through which vocal imitation associatessimple sounds with more complex speech structures. We also inquire about the dimension of the vocal motor space controllingthe production of speech, in order to study this problem we designed an experimentaldevice that allows monitoring 3 points of the upper vocal tractwhile speaking. Making use of this novel tool, we reach a discrete descriptionfor the motor coordinates of Spanish vowels and occlusive consonants. Thisresults show the plausibility to control the vocal model with direct anatomicalmeasures, synthesizing speech in real time from simple motor gesturesproduced during the vocalization.
Fil: Assaneo, María Florencia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Desde el punto de vista biológico el proceso del habla puede separarse endos etapas moduladas entre sí: la producción y la percepción. En este trabajonos ocupamos de ambas, concentrándonos especialmente en la primera. El sistema vocal humano está formado por dos grandes bloques: las cuerdasvocales y el tracto vocal. Las cuerdas vocales constituyen la fuente acústica,determinando la entonación del discurso, mientras que el contenido fonético (los sonidos propios de la lengua) es definido por la dinámica del tractovocal. En esta tesis presentamos un modelo completo de producción vocal,incluyendo el estudio dinámico de un modelo detallado de cuerdas vocales ysu adaptación a un modelo de baja dimensión del tracto vocal. Para evaluar la calidad de la voz sintetizada con el modelo, utilizamosuna combinación de test perceptuales y de resonancia magnética funcional,cuyos resultados muestran que la voz sintética es indistinguible de segmentosde voz real. Los sintetizadores basados en la física de la producción de vozpermiten además el estudio de la percepción de voz controlando parámetrosbiológicos. En particular, en este trabajo mostramos que la identidad de lavoz está codificada en términos de las dimensiones relativas entre las cuerdasvocales y el tracto vocal. Usamos este modelo de voz verificado experimentalmente para responderpreguntas de la biolingüística y la biomimética. En primer lugar, investigamosel rol de la física del aparato vocal en la formación de las onomatopeyas. A pesar de considerarse palabras vinculadas directamente con la imitación,es difícil establecer qué se preserva acústicamente entre los sonidos y susonomatopeyas. Utilizamos el modelo vocal para mostrar que las configuracionesdel tracto vocal que producen los sonidos más parecidos a los originalescorresponden a consonantes co-articuladas. Estos pares vocal-consonante secorresponden, además, con las sílabas más estables de las onomatopeyas endistintos idiomas, sugiriendo un mecanismo por el cual la imitación vocal permite asociar sonidos simples a estructuras de habla más complejas. Por otra parte, nos preguntamos cuál es la dimensionalidad del espaciomotor que gobierna la producción de habla. Para abordar este problema diseñamos un dispositivo experimental que permite monitorear tres puntos dela cavidad oral durante el discurso. Con esta herramienta, logramos una descripción discreta para las coordenadas motoras de las vocales y consonantesoclusivas del español, mostrando además la viabilidad de controlar el modelode producción vocal con variables anatómicas para la síntesis de voz entiempo real a partir de los gestos anatómicos producidos durante el habla.
publishDate 2014
dc.date.none.fl_str_mv 2014-09-09
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/tesis_n5601_Assaneo
url https://hdl.handle.net/20.500.12110/tesis_n5601_Assaneo
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618732728483840
score 13.070432