Modelado de estructuras prosódicas para el reconocimiento automático del habla

Autores: Albornoz, Enrique Marcelo
Año de publicación: 2013
Idioma: español castellano
Tipo de recurso: tesis doctoral
Estado: versión aceptada
Colaborador/a o director/a de tesis: Milone, Diego Humberto
Torres, Humberto
Leone, Horacio
Risk, Marcelo
Chiotti, Omar
Rufiner, Hugo Leonardo
Descripción: Fil: Albornoz, Enrique Marcelo. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
Prosody is used to describe certain physical quantities that can be measured in the voice signals (energy, fundamental frequency, etc.). They represent valuable information for the identification and classification of different aspects of voice production. Automatic Speech Recognition (ASR) is a multidisciplinary area of study. Its ultimate purpose is to make a machine that recognizes the words and even understand its meaning, considering any speaker in any environment. Current ASR systems use hidden Markov models (HMM) to perform a phonetic-acoustic characterization of speech, without considering prosodic information in an explicit way. This Thesis aims to find clear links between the prosodic features and the words that are spoken, and define a new way to classify the language accentual prominences. Word models to categorize the words are defined according to their prosodic information, and a way to incorporate the prosodic classifiers to standard ASR is proposed. Furthermore, it is performed a deep study about acoustic sequences, associated with words, that give problems to the ASR. For these, specialized prosodic classifiers are generated for each word. This Thesis also deals with the emotion recognition task. This work begins with an exploration of classifiers based on Gaussian mixtures and MOM. The prosodic-acoustic features of emotions were analyzed in order to group them together in an unsupervised way. Then, hierarchical classification models that include these groupings of emotions were developed. The novel models have improved performance relative to standard classifiers
La prosodia sirve para denominar a determinadas magnitudes físicas que pueden ser medidas en las señales de voz (energía, frecuencia fundamental, etc.). Éstas presentan información valiosa para la identificación y clasificación de diversos aspectos relativos a la producción de la voz. El reconocimiento automático del habla (RAH) es un área de estudio multidisciplinar cuyo objetivo final es lograr que una máquina reconozca las palabras pronunciadas e incluso entienda su significado, considerando cualquier hablante en cualquier entorno. Los sistemas de RAH actuales utilizan modelos ocultos de Markov (MOM) para realizar una caracterización fonética-acústica del habla, sin contemplar la información prosódica de forma explícita. En esta Tesis se propone hallar relaciones claras entre los rasgos prosódicos y las palabras que se pronuncian, y definir una nueva forma de clasificar las prominencias acentuales del idioma. Se definen modelos de palabras que las categorizan según su información prosódica y se propone la incorporación de clasificadores prosódicos al sistema de RAH estándar. Además, se realiza un estudio profundo acerca de las secuencias acústicas, asociadas a palabras, que presentan problemas al reconocedor. Para éstas se generan clasificadores prosódicos especializados para cada palabra. En esta Tesis también se aborda el reconocimiento de emociones. Inicialmente se realiza una exploración de clasificadores basados en mezclas de Gaussianas y MOM. Se analizan las características prosódico-acústicas de las emociones para luego, agruparlas de forma no supervisada. Entonces, se generan modelos de clasificación jerárquicos que contemplan los agrupamientos de emociones encontrados y permiten mejorar el rendimiento en relación a clasificadores estándar.
Erasmus Mundus - External Cooperation Window
Consejo Nacional de Investigaciones Científicas y Técnicas
Materia: Automatic speech recognition
Emotion recognition
Prosodic modeling
Language models
Prosodic-acustic analysis
Hierarchical classifiers
Reconocimiento automático del habla
Reconocimiento de emociones
Modelado prosódico
Modelos de lenguaje
Análisis prosódico-acústicos
Clasificadores jerárquicos
Nivel de accesibilidad: acceso abierto
Condiciones de uso: Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
Repositorio
Institución: Universidad Nacional del Litoral
OAI Identificador: oai:https://bibliotecavirtual.unl.edu.ar:11185/442

Acceder

id	UNLBT_3705b6cf2b886bf0fe6ff56d1ce31885
oai_identifier_str	oai:https://bibliotecavirtual.unl.edu.ar:11185/442
network_acronym_str	UNLBT
repository_id_str	2187
network_name_str	Biblioteca Virtual (UNL)
spelling	Modelado de estructuras prosódicas para el reconocimiento automático del hablaProsodic modeling for automatic speech recognitionAlbornoz, Enrique MarceloAutomatic speech recognitionEmotion recognitionProsodic modelingLanguage modelsProsodic-acustic analysisHierarchical classifiersReconocimiento automático del hablaReconocimiento de emocionesModelado prosódicoModelos de lenguajeAnálisis prosódico-acústicosClasificadores jerárquicosFil: Albornoz, Enrique Marcelo. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.Prosody is used to describe certain physical quantities that can be measured in the voice signals (energy, fundamental frequency, etc.). They represent valuable information for the identification and classification of different aspects of voice production. Automatic Speech Recognition (ASR) is a multidisciplinary area of study. Its ultimate purpose is to make a machine that recognizes the words and even understand its meaning, considering any speaker in any environment. Current ASR systems use hidden Markov models (HMM) to perform a phonetic-acoustic characterization of speech, without considering prosodic information in an explicit way. This Thesis aims to find clear links between the prosodic features and the words that are spoken, and define a new way to classify the language accentual prominences. Word models to categorize the words are defined according to their prosodic information, and a way to incorporate the prosodic classifiers to standard ASR is proposed. Furthermore, it is performed a deep study about acoustic sequences, associated with words, that give problems to the ASR. For these, specialized prosodic classifiers are generated for each word. This Thesis also deals with the emotion recognition task. This work begins with an exploration of classifiers based on Gaussian mixtures and MOM. The prosodic-acoustic features of emotions were analyzed in order to group them together in an unsupervised way. Then, hierarchical classification models that include these groupings of emotions were developed. The novel models have improved performance relative to standard classifiersLa prosodia sirve para denominar a determinadas magnitudes físicas que pueden ser medidas en las señales de voz (energía, frecuencia fundamental, etc.). Éstas presentan información valiosa para la identificación y clasificación de diversos aspectos relativos a la producción de la voz. El reconocimiento automático del habla (RAH) es un área de estudio multidisciplinar cuyo objetivo final es lograr que una máquina reconozca las palabras pronunciadas e incluso entienda su significado, considerando cualquier hablante en cualquier entorno. Los sistemas de RAH actuales utilizan modelos ocultos de Markov (MOM) para realizar una caracterización fonética-acústica del habla, sin contemplar la información prosódica de forma explícita. En esta Tesis se propone hallar relaciones claras entre los rasgos prosódicos y las palabras que se pronuncian, y definir una nueva forma de clasificar las prominencias acentuales del idioma. Se definen modelos de palabras que las categorizan según su información prosódica y se propone la incorporación de clasificadores prosódicos al sistema de RAH estándar. Además, se realiza un estudio profundo acerca de las secuencias acústicas, asociadas a palabras, que presentan problemas al reconocedor. Para éstas se generan clasificadores prosódicos especializados para cada palabra. En esta Tesis también se aborda el reconocimiento de emociones. Inicialmente se realiza una exploración de clasificadores basados en mezclas de Gaussianas y MOM. Se analizan las características prosódico-acústicas de las emociones para luego, agruparlas de forma no supervisada. Entonces, se generan modelos de clasificación jerárquicos que contemplan los agrupamientos de emociones encontrados y permiten mejorar el rendimiento en relación a clasificadores estándar.Erasmus Mundus - External Cooperation WindowConsejo Nacional de Investigaciones Científicas y TécnicasMilone, Diego HumbertoTorres, HumbertoLeone, HoracioRisk, MarceloChiotti, OmarRufiner, Hugo Leonardo2013-05-312013-05-31info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionSNRDhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfapplication/pdfhttp://hdl.handle.net/11185/442spaspainfo:eu-repo/semantics/openAccessAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)http://creativecommons.org/licenses/by-nc-nd/4.0/deed.esreponame:Biblioteca Virtual (UNL)instname:Universidad Nacional del Litoralinstacron:UNL2026-02-26T14:07:13Zoai:https://bibliotecavirtual.unl.edu.ar:11185/442Institucionalhttp://bibliotecavirtual.unl.edu.ar/Universidad públicaNo correspondeajdeba@unl.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:21872026-02-26 14:07:13.522Biblioteca Virtual (UNL) - Universidad Nacional del Litoralfalse
dc.title.none.fl_str_mv	Modelado de estructuras prosódicas para el reconocimiento automático del habla Prosodic modeling for automatic speech recognition
title	Modelado de estructuras prosódicas para el reconocimiento automático del habla
spellingShingle	Modelado de estructuras prosódicas para el reconocimiento automático del habla Albornoz, Enrique Marcelo Automatic speech recognition Emotion recognition Prosodic modeling Language models Prosodic-acustic analysis Hierarchical classifiers Reconocimiento automático del habla Reconocimiento de emociones Modelado prosódico Modelos de lenguaje Análisis prosódico-acústicos Clasificadores jerárquicos
title_short	Modelado de estructuras prosódicas para el reconocimiento automático del habla
title_full	Modelado de estructuras prosódicas para el reconocimiento automático del habla
title_fullStr	Modelado de estructuras prosódicas para el reconocimiento automático del habla
title_full_unstemmed	Modelado de estructuras prosódicas para el reconocimiento automático del habla
title_sort	Modelado de estructuras prosódicas para el reconocimiento automático del habla
dc.creator.none.fl_str_mv	Albornoz, Enrique Marcelo
author	Albornoz, Enrique Marcelo
author_facet	Albornoz, Enrique Marcelo
author_role	author
dc.contributor.none.fl_str_mv	Milone, Diego Humberto Torres, Humberto Leone, Horacio Risk, Marcelo Chiotti, Omar Rufiner, Hugo Leonardo
dc.subject.none.fl_str_mv	Automatic speech recognition Emotion recognition Prosodic modeling Language models Prosodic-acustic analysis Hierarchical classifiers Reconocimiento automático del habla Reconocimiento de emociones Modelado prosódico Modelos de lenguaje Análisis prosódico-acústicos Clasificadores jerárquicos
topic	Automatic speech recognition Emotion recognition Prosodic modeling Language models Prosodic-acustic analysis Hierarchical classifiers Reconocimiento automático del habla Reconocimiento de emociones Modelado prosódico Modelos de lenguaje Análisis prosódico-acústicos Clasificadores jerárquicos
dc.description.none.fl_txt_mv	Fil: Albornoz, Enrique Marcelo. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina. Prosody is used to describe certain physical quantities that can be measured in the voice signals (energy, fundamental frequency, etc.). They represent valuable information for the identification and classification of different aspects of voice production. Automatic Speech Recognition (ASR) is a multidisciplinary area of study. Its ultimate purpose is to make a machine that recognizes the words and even understand its meaning, considering any speaker in any environment. Current ASR systems use hidden Markov models (HMM) to perform a phonetic-acoustic characterization of speech, without considering prosodic information in an explicit way. This Thesis aims to find clear links between the prosodic features and the words that are spoken, and define a new way to classify the language accentual prominences. Word models to categorize the words are defined according to their prosodic information, and a way to incorporate the prosodic classifiers to standard ASR is proposed. Furthermore, it is performed a deep study about acoustic sequences, associated with words, that give problems to the ASR. For these, specialized prosodic classifiers are generated for each word. This Thesis also deals with the emotion recognition task. This work begins with an exploration of classifiers based on Gaussian mixtures and MOM. The prosodic-acoustic features of emotions were analyzed in order to group them together in an unsupervised way. Then, hierarchical classification models that include these groupings of emotions were developed. The novel models have improved performance relative to standard classifiers La prosodia sirve para denominar a determinadas magnitudes físicas que pueden ser medidas en las señales de voz (energía, frecuencia fundamental, etc.). Éstas presentan información valiosa para la identificación y clasificación de diversos aspectos relativos a la producción de la voz. El reconocimiento automático del habla (RAH) es un área de estudio multidisciplinar cuyo objetivo final es lograr que una máquina reconozca las palabras pronunciadas e incluso entienda su significado, considerando cualquier hablante en cualquier entorno. Los sistemas de RAH actuales utilizan modelos ocultos de Markov (MOM) para realizar una caracterización fonética-acústica del habla, sin contemplar la información prosódica de forma explícita. En esta Tesis se propone hallar relaciones claras entre los rasgos prosódicos y las palabras que se pronuncian, y definir una nueva forma de clasificar las prominencias acentuales del idioma. Se definen modelos de palabras que las categorizan según su información prosódica y se propone la incorporación de clasificadores prosódicos al sistema de RAH estándar. Además, se realiza un estudio profundo acerca de las secuencias acústicas, asociadas a palabras, que presentan problemas al reconocedor. Para éstas se generan clasificadores prosódicos especializados para cada palabra. En esta Tesis también se aborda el reconocimiento de emociones. Inicialmente se realiza una exploración de clasificadores basados en mezclas de Gaussianas y MOM. Se analizan las características prosódico-acústicas de las emociones para luego, agruparlas de forma no supervisada. Entonces, se generan modelos de clasificación jerárquicos que contemplan los agrupamientos de emociones encontrados y permiten mejorar el rendimiento en relación a clasificadores estándar. Erasmus Mundus - External Cooperation Window Consejo Nacional de Investigaciones Científicas y Técnicas
description	Fil: Albornoz, Enrique Marcelo. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
publishDate	2013
dc.date.none.fl_str_mv	2013-05-31 2013-05-31
dc.type.none.fl_str_mv	info:eu-repo/semantics/doctoralThesis info:eu-repo/semantics/acceptedVersion SNRD http://purl.org/coar/resource_type/c_db06 info:ar-repo/semantics/tesisDoctoral
format	doctoralThesis
status_str	acceptedVersion
dc.identifier.none.fl_str_mv	http://hdl.handle.net/11185/442
url	http://hdl.handle.net/11185/442
dc.language.none.fl_str_mv	spa spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
eu_rights_str_mv	openAccess
rights_invalid_str_mv	Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.format.none.fl_str_mv	application/pdf application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Virtual (UNL) instname:Universidad Nacional del Litoral instacron:UNL
reponame_str	Biblioteca Virtual (UNL)
collection	Biblioteca Virtual (UNL)
instname_str	Universidad Nacional del Litoral
instacron_str	UNL
institution	UNL
repository.name.fl_str_mv	Biblioteca Virtual (UNL) - Universidad Nacional del Litoral
repository.mail.fl_str_mv	jdeba@unl.edu.ar
_version_	1858211610405896192
score	12.665996

Modelado de estructuras prosódicas para el reconocimiento automático del habla

Publicaciones similares