Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla

Autores: Assaneo, María Florencia
Año de publicación: 2014
Idioma: español castellano
Tipo de recurso: tesis doctoral
Estado: versión publicada
Colaborador/a o director/a de tesis: Trevisan, Marcos Alberto
Descripción: Desde el punto de vista biológico el proceso del habla puede separarse endos etapas moduladas entre sí: la producción y la percepción. En este trabajonos ocupamos de ambas, concentrándonos especialmente en la primera. El sistema vocal humano está formado por dos grandes bloques: las cuerdasvocales y el tracto vocal. Las cuerdas vocales constituyen la fuente acústica,determinando la entonación del discurso, mientras que el contenido fonético (los sonidos propios de la lengua) es definido por la dinámica del tractovocal. En esta tesis presentamos un modelo completo de producción vocal,incluyendo el estudio dinámico de un modelo detallado de cuerdas vocales ysu adaptación a un modelo de baja dimensión del tracto vocal. Para evaluar la calidad de la voz sintetizada con el modelo, utilizamosuna combinación de test perceptuales y de resonancia magnética funcional,cuyos resultados muestran que la voz sintética es indistinguible de segmentosde voz real. Los sintetizadores basados en la física de la producción de vozpermiten además el estudio de la percepción de voz controlando parámetrosbiológicos. En particular, en este trabajo mostramos que la identidad de lavoz está codificada en términos de las dimensiones relativas entre las cuerdasvocales y el tracto vocal. Usamos este modelo de voz verificado experimentalmente para responderpreguntas de la biolingüística y la biomimética. En primer lugar, investigamosel rol de la física del aparato vocal en la formación de las onomatopeyas. A pesar de considerarse palabras vinculadas directamente con la imitación,es difícil establecer qué se preserva acústicamente entre los sonidos y susonomatopeyas. Utilizamos el modelo vocal para mostrar que las configuracionesdel tracto vocal que producen los sonidos más parecidos a los originalescorresponden a consonantes co-articuladas. Estos pares vocal-consonante secorresponden, además, con las sílabas más estables de las onomatopeyas endistintos idiomas, sugiriendo un mecanismo por el cual la imitación vocal permite asociar sonidos simples a estructuras de habla más complejas. Por otra parte, nos preguntamos cuál es la dimensionalidad del espaciomotor que gobierna la producción de habla. Para abordar este problema diseñamos un dispositivo experimental que permite monitorear tres puntos dela cavidad oral durante el discurso. Con esta herramienta, logramos una descripción discreta para las coordenadas motoras de las vocales y consonantesoclusivas del español, mostrando además la viabilidad de controlar el modelode producción vocal con variables anatómicas para la síntesis de voz entiempo real a partir de los gestos anatómicos producidos durante el habla.
From a biological point of view the ability of speaking can be split intwo intermodulated processes: production and perception. In this work weinvestigated both of them from a physical perspective, focusing on the firstone. The physical process associated with the production of voice rely on thevocal anatomy, composed of two main blocks: the vocal folds and the vocaltract. The folds are the acoustic source that specify the intonation of thespeech, while the phonetic content is determined by the vocal tract dynamics. In this thesis we developed a complete model of voice production, we studiedthe different dynamic regimes of a detailed mathematical model of the folds,and adjusted it to a low dimensional model of the tract. This model allowsto synthesize voice by controlling physical parameters of the vocal system. In order to evaluate the quality of the synthetic voices, we carried outa combination of perceptual and fMRI tests, showing that synthetic voicesare indistinguishable from real ones. Such an articulatory synthesizer, basedon the physics processes involved in the voice production, allows to studythe perceptual effects of precise variations in the anatomical parameters. Weused it to show that the voice identity is encoded in the relative dimensionsof the tract and the folds. Using this validated model, we addressed two specific questions. First,we investigated the role of imitation within the generation of onomatopoeias. Despite it is widely know that onomatopoeias are based on imitation, itremains unclear which are the acoustic features shared between the soundsand their onomatopoeias. Using our vocal model we show that co-articulated consonants are the sounds that best fit the original noises. This pairs ofvowel-consonant also are the more stable syllables within the onomatopoeiasacross languages, suggesting a mechanism through which vocal imitation associatessimple sounds with more complex speech structures. We also inquire about the dimension of the vocal motor space controllingthe production of speech, in order to study this problem we designed an experimentaldevice that allows monitoring 3 points of the upper vocal tractwhile speaking. Making use of this novel tool, we reach a discrete descriptionfor the motor coordinates of Spanish vowels and occlusive consonants. Thisresults show the plausibility to control the vocal model with direct anatomicalmeasures, synthesizing speech in real time from simple motor gesturesproduced during the vocalization.
Fil: Assaneo, María Florencia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia: PRODUCCION Y PERCEPCION DE VOZ
BIOLINGÜISTICA
MODELADO MATEMATICO
DINAMICA NOLINEAL
RESONANCIA MAGNETICA FUNCIONAL
SPEECH PERCEPTION AND PRODUCTION
BIOLINGUISTICS
MATHEMATICAL MODELLING
NONLINEAR DYNAMICS
FMRI
Nivel de accesibilidad: acceso abierto
Condiciones de uso: https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Institución: Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador: tesis:tesis_n5601_Assaneo

Acceder

id	BDUBAFCEN_8ff5f816e1b271fdb2ddf61f2073430d
oai_identifier_str	tesis:tesis_n5601_Assaneo
network_acronym_str	BDUBAFCEN
repository_id_str	1896
network_name_str	Biblioteca Digital (UBA-FCEN)
spelling	Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de hablaModeling of the human vocal system and its application to studies of speech perception and productionAssaneo, María FlorenciaPRODUCCION Y PERCEPCION DE VOZBIOLINGÜISTICAMODELADO MATEMATICODINAMICA NOLINEALRESONANCIA MAGNETICA FUNCIONALSPEECH PERCEPTION AND PRODUCTIONBIOLINGUISTICSMATHEMATICAL MODELLINGNONLINEAR DYNAMICSFMRIDesde el punto de vista biológico el proceso del habla puede separarse endos etapas moduladas entre sí: la producción y la percepción. En este trabajonos ocupamos de ambas, concentrándonos especialmente en la primera. El sistema vocal humano está formado por dos grandes bloques: las cuerdasvocales y el tracto vocal. Las cuerdas vocales constituyen la fuente acústica,determinando la entonación del discurso, mientras que el contenido fonético (los sonidos propios de la lengua) es definido por la dinámica del tractovocal. En esta tesis presentamos un modelo completo de producción vocal,incluyendo el estudio dinámico de un modelo detallado de cuerdas vocales ysu adaptación a un modelo de baja dimensión del tracto vocal. Para evaluar la calidad de la voz sintetizada con el modelo, utilizamosuna combinación de test perceptuales y de resonancia magnética funcional,cuyos resultados muestran que la voz sintética es indistinguible de segmentosde voz real. Los sintetizadores basados en la física de la producción de vozpermiten además el estudio de la percepción de voz controlando parámetrosbiológicos. En particular, en este trabajo mostramos que la identidad de lavoz está codificada en términos de las dimensiones relativas entre las cuerdasvocales y el tracto vocal. Usamos este modelo de voz verificado experimentalmente para responderpreguntas de la biolingüística y la biomimética. En primer lugar, investigamosel rol de la física del aparato vocal en la formación de las onomatopeyas. A pesar de considerarse palabras vinculadas directamente con la imitación,es difícil establecer qué se preserva acústicamente entre los sonidos y susonomatopeyas. Utilizamos el modelo vocal para mostrar que las configuracionesdel tracto vocal que producen los sonidos más parecidos a los originalescorresponden a consonantes co-articuladas. Estos pares vocal-consonante secorresponden, además, con las sílabas más estables de las onomatopeyas endistintos idiomas, sugiriendo un mecanismo por el cual la imitación vocal permite asociar sonidos simples a estructuras de habla más complejas. Por otra parte, nos preguntamos cuál es la dimensionalidad del espaciomotor que gobierna la producción de habla. Para abordar este problema diseñamos un dispositivo experimental que permite monitorear tres puntos dela cavidad oral durante el discurso. Con esta herramienta, logramos una descripción discreta para las coordenadas motoras de las vocales y consonantesoclusivas del español, mostrando además la viabilidad de controlar el modelode producción vocal con variables anatómicas para la síntesis de voz entiempo real a partir de los gestos anatómicos producidos durante el habla.From a biological point of view the ability of speaking can be split intwo intermodulated processes: production and perception. In this work weinvestigated both of them from a physical perspective, focusing on the firstone. The physical process associated with the production of voice rely on thevocal anatomy, composed of two main blocks: the vocal folds and the vocaltract. The folds are the acoustic source that specify the intonation of thespeech, while the phonetic content is determined by the vocal tract dynamics. In this thesis we developed a complete model of voice production, we studiedthe different dynamic regimes of a detailed mathematical model of the folds,and adjusted it to a low dimensional model of the tract. This model allowsto synthesize voice by controlling physical parameters of the vocal system. In order to evaluate the quality of the synthetic voices, we carried outa combination of perceptual and fMRI tests, showing that synthetic voicesare indistinguishable from real ones. Such an articulatory synthesizer, basedon the physics processes involved in the voice production, allows to studythe perceptual effects of precise variations in the anatomical parameters. Weused it to show that the voice identity is encoded in the relative dimensionsof the tract and the folds. Using this validated model, we addressed two specific questions. First,we investigated the role of imitation within the generation of onomatopoeias. Despite it is widely know that onomatopoeias are based on imitation, itremains unclear which are the acoustic features shared between the soundsand their onomatopoeias. Using our vocal model we show that co-articulated consonants are the sounds that best fit the original noises. This pairs ofvowel-consonant also are the more stable syllables within the onomatopoeiasacross languages, suggesting a mechanism through which vocal imitation associatessimple sounds with more complex speech structures. We also inquire about the dimension of the vocal motor space controllingthe production of speech, in order to study this problem we designed an experimentaldevice that allows monitoring 3 points of the upper vocal tractwhile speaking. Making use of this novel tool, we reach a discrete descriptionfor the motor coordinates of Spanish vowels and occlusive consonants. Thisresults show the plausibility to control the vocal model with direct anatomicalmeasures, synthesizing speech in real time from simple motor gesturesproduced during the vocalization.Fil: Assaneo, María Florencia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesTrevisan, Marcos Alberto2014-09-09info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n5601_Assaneospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-06-04T09:41:49Ztesis:tesis_n5601_AssaneoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-06-04 09:41:50.63Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv	Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla Modeling of the human vocal system and its application to studies of speech perception and production
title	Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
spellingShingle	Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla Assaneo, María Florencia PRODUCCION Y PERCEPCION DE VOZ BIOLINGÜISTICA MODELADO MATEMATICO DINAMICA NOLINEAL RESONANCIA MAGNETICA FUNCIONAL SPEECH PERCEPTION AND PRODUCTION BIOLINGUISTICS MATHEMATICAL MODELLING NONLINEAR DYNAMICS FMRI
title_short	Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
title_full	Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
title_fullStr	Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
title_full_unstemmed	Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
title_sort	Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
dc.creator.none.fl_str_mv	Assaneo, María Florencia
author	Assaneo, María Florencia
author_facet	Assaneo, María Florencia
author_role	author
dc.contributor.none.fl_str_mv	Trevisan, Marcos Alberto
dc.subject.none.fl_str_mv	PRODUCCION Y PERCEPCION DE VOZ BIOLINGÜISTICA MODELADO MATEMATICO DINAMICA NOLINEAL RESONANCIA MAGNETICA FUNCIONAL SPEECH PERCEPTION AND PRODUCTION BIOLINGUISTICS MATHEMATICAL MODELLING NONLINEAR DYNAMICS FMRI
topic	PRODUCCION Y PERCEPCION DE VOZ BIOLINGÜISTICA MODELADO MATEMATICO DINAMICA NOLINEAL RESONANCIA MAGNETICA FUNCIONAL SPEECH PERCEPTION AND PRODUCTION BIOLINGUISTICS MATHEMATICAL MODELLING NONLINEAR DYNAMICS FMRI
dc.description.none.fl_txt_mv	Desde el punto de vista biológico el proceso del habla puede separarse endos etapas moduladas entre sí: la producción y la percepción. En este trabajonos ocupamos de ambas, concentrándonos especialmente en la primera. El sistema vocal humano está formado por dos grandes bloques: las cuerdasvocales y el tracto vocal. Las cuerdas vocales constituyen la fuente acústica,determinando la entonación del discurso, mientras que el contenido fonético (los sonidos propios de la lengua) es definido por la dinámica del tractovocal. En esta tesis presentamos un modelo completo de producción vocal,incluyendo el estudio dinámico de un modelo detallado de cuerdas vocales ysu adaptación a un modelo de baja dimensión del tracto vocal. Para evaluar la calidad de la voz sintetizada con el modelo, utilizamosuna combinación de test perceptuales y de resonancia magnética funcional,cuyos resultados muestran que la voz sintética es indistinguible de segmentosde voz real. Los sintetizadores basados en la física de la producción de vozpermiten además el estudio de la percepción de voz controlando parámetrosbiológicos. En particular, en este trabajo mostramos que la identidad de lavoz está codificada en términos de las dimensiones relativas entre las cuerdasvocales y el tracto vocal. Usamos este modelo de voz verificado experimentalmente para responderpreguntas de la biolingüística y la biomimética. En primer lugar, investigamosel rol de la física del aparato vocal en la formación de las onomatopeyas. A pesar de considerarse palabras vinculadas directamente con la imitación,es difícil establecer qué se preserva acústicamente entre los sonidos y susonomatopeyas. Utilizamos el modelo vocal para mostrar que las configuracionesdel tracto vocal que producen los sonidos más parecidos a los originalescorresponden a consonantes co-articuladas. Estos pares vocal-consonante secorresponden, además, con las sílabas más estables de las onomatopeyas endistintos idiomas, sugiriendo un mecanismo por el cual la imitación vocal permite asociar sonidos simples a estructuras de habla más complejas. Por otra parte, nos preguntamos cuál es la dimensionalidad del espaciomotor que gobierna la producción de habla. Para abordar este problema diseñamos un dispositivo experimental que permite monitorear tres puntos dela cavidad oral durante el discurso. Con esta herramienta, logramos una descripción discreta para las coordenadas motoras de las vocales y consonantesoclusivas del español, mostrando además la viabilidad de controlar el modelode producción vocal con variables anatómicas para la síntesis de voz entiempo real a partir de los gestos anatómicos producidos durante el habla. From a biological point of view the ability of speaking can be split intwo intermodulated processes: production and perception. In this work weinvestigated both of them from a physical perspective, focusing on the firstone. The physical process associated with the production of voice rely on thevocal anatomy, composed of two main blocks: the vocal folds and the vocaltract. The folds are the acoustic source that specify the intonation of thespeech, while the phonetic content is determined by the vocal tract dynamics. In this thesis we developed a complete model of voice production, we studiedthe different dynamic regimes of a detailed mathematical model of the folds,and adjusted it to a low dimensional model of the tract. This model allowsto synthesize voice by controlling physical parameters of the vocal system. In order to evaluate the quality of the synthetic voices, we carried outa combination of perceptual and fMRI tests, showing that synthetic voicesare indistinguishable from real ones. Such an articulatory synthesizer, basedon the physics processes involved in the voice production, allows to studythe perceptual effects of precise variations in the anatomical parameters. Weused it to show that the voice identity is encoded in the relative dimensionsof the tract and the folds. Using this validated model, we addressed two specific questions. First,we investigated the role of imitation within the generation of onomatopoeias. Despite it is widely know that onomatopoeias are based on imitation, itremains unclear which are the acoustic features shared between the soundsand their onomatopoeias. Using our vocal model we show that co-articulated consonants are the sounds that best fit the original noises. This pairs ofvowel-consonant also are the more stable syllables within the onomatopoeiasacross languages, suggesting a mechanism through which vocal imitation associatessimple sounds with more complex speech structures. We also inquire about the dimension of the vocal motor space controllingthe production of speech, in order to study this problem we designed an experimentaldevice that allows monitoring 3 points of the upper vocal tractwhile speaking. Making use of this novel tool, we reach a discrete descriptionfor the motor coordinates of Spanish vowels and occlusive consonants. Thisresults show the plausibility to control the vocal model with direct anatomicalmeasures, synthesizing speech in real time from simple motor gesturesproduced during the vocalization. Fil: Assaneo, María Florencia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description	Desde el punto de vista biológico el proceso del habla puede separarse endos etapas moduladas entre sí: la producción y la percepción. En este trabajonos ocupamos de ambas, concentrándonos especialmente en la primera. El sistema vocal humano está formado por dos grandes bloques: las cuerdasvocales y el tracto vocal. Las cuerdas vocales constituyen la fuente acústica,determinando la entonación del discurso, mientras que el contenido fonético (los sonidos propios de la lengua) es definido por la dinámica del tractovocal. En esta tesis presentamos un modelo completo de producción vocal,incluyendo el estudio dinámico de un modelo detallado de cuerdas vocales ysu adaptación a un modelo de baja dimensión del tracto vocal. Para evaluar la calidad de la voz sintetizada con el modelo, utilizamosuna combinación de test perceptuales y de resonancia magnética funcional,cuyos resultados muestran que la voz sintética es indistinguible de segmentosde voz real. Los sintetizadores basados en la física de la producción de vozpermiten además el estudio de la percepción de voz controlando parámetrosbiológicos. En particular, en este trabajo mostramos que la identidad de lavoz está codificada en términos de las dimensiones relativas entre las cuerdasvocales y el tracto vocal. Usamos este modelo de voz verificado experimentalmente para responderpreguntas de la biolingüística y la biomimética. En primer lugar, investigamosel rol de la física del aparato vocal en la formación de las onomatopeyas. A pesar de considerarse palabras vinculadas directamente con la imitación,es difícil establecer qué se preserva acústicamente entre los sonidos y susonomatopeyas. Utilizamos el modelo vocal para mostrar que las configuracionesdel tracto vocal que producen los sonidos más parecidos a los originalescorresponden a consonantes co-articuladas. Estos pares vocal-consonante secorresponden, además, con las sílabas más estables de las onomatopeyas endistintos idiomas, sugiriendo un mecanismo por el cual la imitación vocal permite asociar sonidos simples a estructuras de habla más complejas. Por otra parte, nos preguntamos cuál es la dimensionalidad del espaciomotor que gobierna la producción de habla. Para abordar este problema diseñamos un dispositivo experimental que permite monitorear tres puntos dela cavidad oral durante el discurso. Con esta herramienta, logramos una descripción discreta para las coordenadas motoras de las vocales y consonantesoclusivas del español, mostrando además la viabilidad de controlar el modelode producción vocal con variables anatómicas para la síntesis de voz entiempo real a partir de los gestos anatómicos producidos durante el habla.
publishDate	2014
dc.date.none.fl_str_mv	2014-09-09
dc.type.none.fl_str_mv	info:eu-repo/semantics/doctoralThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_db06 info:ar-repo/semantics/tesisDoctoral
format	doctoralThesis
status_str	publishedVersion
dc.identifier.none.fl_str_mv	https://hdl.handle.net/20.500.12110/tesis_n5601_Assaneo
url	https://hdl.handle.net/20.500.12110/tesis_n5601_Assaneo
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv	openAccess
rights_invalid_str_mv	https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv	reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN
reponame_str	Biblioteca Digital (UBA-FCEN)
collection	Biblioteca Digital (UBA-FCEN)
instname_str	Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str	UBA-FCEN
institution	UBA-FCEN
repository.name.fl_str_mv	Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv	ana@bl.fcen.uba.ar
_version_	1867090954016522240
score	12.957546

Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla

Publicaciones similares