Medidas de información multiresolución aplicadas al procesamiento de señales de habla

Autores
Cherniz, Analía Soledad
Año de publicación
2017
Idioma
español castellano
Tipo de recurso
tesis de maestría
Estado
versión aceptada
Colaborador/a o director/a de tesis
Rufiner, Hugo Leonardo
Pelle, Patricia
Gómez, Juan Carlos
Risk, Marcelo
Descripción
Fil: Cherniz, Analía Soledad. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
La parametrización de la señal de habla es un paso fundamental en múltiples sistemas de procesamiento de voz. Esto permite representar la señal con unos pocos coeficientes en donde se resaltan las características acústicas más relevantes, disminuyendo la dimensionalidad de los datos a procesar y haciendo que el procesamiento posterior sea más eficiente. En esta tesis se proponen nuevas parametrizaciones basadas en medidas de información multiresolución, a fin de obtener nuevas dimensiones que proporcionen información acerca de los cambios en la dinámica subyacente de la señal de voz. Para ello, se calculó la transformada ondita continua de la señal de voz y se evaluó la evolución temporal del grado de complejidad de los coeficientes utilizando las entropías de Shannon y Tsallis, con sus correspondientes entropías relativas asociadas, y la divergencia de Jensen-Shannon. A partir de este procesamiento se plantearon codificaciones de la señal de voz, que luego se utilizaron en dos tipos de tareas: reconocimiento automático del habla y segmentación automática de fonemas. Los resultados obtenidos muestran que las parametrizaciones propuestas permiten destacar características acústicas relacionadas con los cambios dinámicos del tracto vocal, lo cual es clave para realizar el reconocimiento, incluso en presencia de ruido aditivo. Además, la divergencia multiresolución continua proporciona información valiosa que tiene en cuenta las transiciones fonéticas, lo cual es de vital importancia al momento de realizar la tarea de segmentación.
Parameterization of speech is a fundamental step in multiple speech processing systems. This allows representing the signal with a few coefficients where the most important properties of speech are highlighted, decreasing the dimensionality of the data to be processed and making the subsequent processing more efficient. In this thesis, new parametrizations based on multiresolution information measures are proposed to obtain new dimensions that provide information about the changes in the underlying dynamics of speech signal. For that purpose, the continuous waveform transform of the speech signal was computed, and the temporal evolution of the complexity degree of the coefficients was evaluated using the Shannon and Tsallis entropies, with their corresponding relative entropies, and Jensen–Shannon divergence. These approaches were used in two applications: automatic speech recognition and text-independent phone segmentation. The results obtained show that the proposed parametrization highlight acoustic features related to dynamical changes of the vocal tract which are important cues in order to perform the recognition, even in the presence of additive noise. Moreover, the continuous multiresolution divergence provides valuable information that takes into account phoneme transitions, which is of vital importance to perform the segmentation task.
Agencia Nacional de Promoción Científica y Tecnológica
Consejo Nacional de Investigaciones Científicas y Técnicas
Materia
Entropy
Divergence
Multiresolution analysis
Speech parameterization
Robust speech recognition
Automatic phone segmentation
Entropía
Divergencia
Análisis multiresolución
Parametrización de la señal de voz
Reconocimiento robusto del habla
Segmentación automática de fonemas
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
Repositorio
Biblioteca Virtual (UNL)
Institución
Universidad Nacional del Litoral
OAI Identificador
oai:https://bibliotecavirtual.unl.edu.ar:11185/1125

id UNLBT_d1f16718dff361d0096f63dfc821709a
oai_identifier_str oai:https://bibliotecavirtual.unl.edu.ar:11185/1125
network_acronym_str UNLBT
repository_id_str 2187
network_name_str Biblioteca Virtual (UNL)
spelling Medidas de información multiresolución aplicadas al procesamiento de señales de hablaMultiresolution information measures applied to speech signal proccessingCherniz, Analía SoledadEntropyDivergenceMultiresolution analysisSpeech parameterizationRobust speech recognitionAutomatic phone segmentationEntropíaDivergenciaAnálisis multiresoluciónParametrización de la señal de vozReconocimiento robusto del hablaSegmentación automática de fonemasFil: Cherniz, Analía Soledad. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.La parametrización de la señal de habla es un paso fundamental en múltiples sistemas de procesamiento de voz. Esto permite representar la señal con unos pocos coeficientes en donde se resaltan las características acústicas más relevantes, disminuyendo la dimensionalidad de los datos a procesar y haciendo que el procesamiento posterior sea más eficiente. En esta tesis se proponen nuevas parametrizaciones basadas en medidas de información multiresolución, a fin de obtener nuevas dimensiones que proporcionen información acerca de los cambios en la dinámica subyacente de la señal de voz. Para ello, se calculó la transformada ondita continua de la señal de voz y se evaluó la evolución temporal del grado de complejidad de los coeficientes utilizando las entropías de Shannon y Tsallis, con sus correspondientes entropías relativas asociadas, y la divergencia de Jensen-Shannon. A partir de este procesamiento se plantearon codificaciones de la señal de voz, que luego se utilizaron en dos tipos de tareas: reconocimiento automático del habla y segmentación automática de fonemas. Los resultados obtenidos muestran que las parametrizaciones propuestas permiten destacar características acústicas relacionadas con los cambios dinámicos del tracto vocal, lo cual es clave para realizar el reconocimiento, incluso en presencia de ruido aditivo. Además, la divergencia multiresolución continua proporciona información valiosa que tiene en cuenta las transiciones fonéticas, lo cual es de vital importancia al momento de realizar la tarea de segmentación.Parameterization of speech is a fundamental step in multiple speech processing systems. This allows representing the signal with a few coefficients where the most important properties of speech are highlighted, decreasing the dimensionality of the data to be processed and making the subsequent processing more efficient. In this thesis, new parametrizations based on multiresolution information measures are proposed to obtain new dimensions that provide information about the changes in the underlying dynamics of speech signal. For that purpose, the continuous waveform transform of the speech signal was computed, and the temporal evolution of the complexity degree of the coefficients was evaluated using the Shannon and Tsallis entropies, with their corresponding relative entropies, and Jensen–Shannon divergence. These approaches were used in two applications: automatic speech recognition and text-independent phone segmentation. The results obtained show that the proposed parametrization highlight acoustic features related to dynamical changes of the vocal tract which are important cues in order to perform the recognition, even in the presence of additive noise. Moreover, the continuous multiresolution divergence provides valuable information that takes into account phoneme transitions, which is of vital importance to perform the segmentation task.Agencia Nacional de Promoción Científica y TecnológicaConsejo Nacional de Investigaciones Científicas y TécnicasRufiner, Hugo LeonardoPelle, PatriciaGómez, Juan CarlosRisk, Marcelo2018-09-172017-07-26info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionSNRDhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttp://hdl.handle.net/11185/1125spaspainfo:eu-repo/semantics/openAccessAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)http://creativecommons.org/licenses/by-nc-nd/4.0/deed.esreponame:Biblioteca Virtual (UNL)instname:Universidad Nacional del Litoralinstacron:UNL2025-09-29T14:30:08Zoai:https://bibliotecavirtual.unl.edu.ar:11185/1125Institucionalhttp://bibliotecavirtual.unl.edu.ar/Universidad públicaNo correspondeajdeba@unl.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:21872025-09-29 14:30:08.37Biblioteca Virtual (UNL) - Universidad Nacional del Litoralfalse
dc.title.none.fl_str_mv Medidas de información multiresolución aplicadas al procesamiento de señales de habla
Multiresolution information measures applied to speech signal proccessing
title Medidas de información multiresolución aplicadas al procesamiento de señales de habla
spellingShingle Medidas de información multiresolución aplicadas al procesamiento de señales de habla
Cherniz, Analía Soledad
Entropy
Divergence
Multiresolution analysis
Speech parameterization
Robust speech recognition
Automatic phone segmentation
Entropía
Divergencia
Análisis multiresolución
Parametrización de la señal de voz
Reconocimiento robusto del habla
Segmentación automática de fonemas
title_short Medidas de información multiresolución aplicadas al procesamiento de señales de habla
title_full Medidas de información multiresolución aplicadas al procesamiento de señales de habla
title_fullStr Medidas de información multiresolución aplicadas al procesamiento de señales de habla
title_full_unstemmed Medidas de información multiresolución aplicadas al procesamiento de señales de habla
title_sort Medidas de información multiresolución aplicadas al procesamiento de señales de habla
dc.creator.none.fl_str_mv Cherniz, Analía Soledad
author Cherniz, Analía Soledad
author_facet Cherniz, Analía Soledad
author_role author
dc.contributor.none.fl_str_mv Rufiner, Hugo Leonardo
Pelle, Patricia
Gómez, Juan Carlos
Risk, Marcelo
dc.subject.none.fl_str_mv Entropy
Divergence
Multiresolution analysis
Speech parameterization
Robust speech recognition
Automatic phone segmentation
Entropía
Divergencia
Análisis multiresolución
Parametrización de la señal de voz
Reconocimiento robusto del habla
Segmentación automática de fonemas
topic Entropy
Divergence
Multiresolution analysis
Speech parameterization
Robust speech recognition
Automatic phone segmentation
Entropía
Divergencia
Análisis multiresolución
Parametrización de la señal de voz
Reconocimiento robusto del habla
Segmentación automática de fonemas
dc.description.none.fl_txt_mv Fil: Cherniz, Analía Soledad. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
La parametrización de la señal de habla es un paso fundamental en múltiples sistemas de procesamiento de voz. Esto permite representar la señal con unos pocos coeficientes en donde se resaltan las características acústicas más relevantes, disminuyendo la dimensionalidad de los datos a procesar y haciendo que el procesamiento posterior sea más eficiente. En esta tesis se proponen nuevas parametrizaciones basadas en medidas de información multiresolución, a fin de obtener nuevas dimensiones que proporcionen información acerca de los cambios en la dinámica subyacente de la señal de voz. Para ello, se calculó la transformada ondita continua de la señal de voz y se evaluó la evolución temporal del grado de complejidad de los coeficientes utilizando las entropías de Shannon y Tsallis, con sus correspondientes entropías relativas asociadas, y la divergencia de Jensen-Shannon. A partir de este procesamiento se plantearon codificaciones de la señal de voz, que luego se utilizaron en dos tipos de tareas: reconocimiento automático del habla y segmentación automática de fonemas. Los resultados obtenidos muestran que las parametrizaciones propuestas permiten destacar características acústicas relacionadas con los cambios dinámicos del tracto vocal, lo cual es clave para realizar el reconocimiento, incluso en presencia de ruido aditivo. Además, la divergencia multiresolución continua proporciona información valiosa que tiene en cuenta las transiciones fonéticas, lo cual es de vital importancia al momento de realizar la tarea de segmentación.
Parameterization of speech is a fundamental step in multiple speech processing systems. This allows representing the signal with a few coefficients where the most important properties of speech are highlighted, decreasing the dimensionality of the data to be processed and making the subsequent processing more efficient. In this thesis, new parametrizations based on multiresolution information measures are proposed to obtain new dimensions that provide information about the changes in the underlying dynamics of speech signal. For that purpose, the continuous waveform transform of the speech signal was computed, and the temporal evolution of the complexity degree of the coefficients was evaluated using the Shannon and Tsallis entropies, with their corresponding relative entropies, and Jensen–Shannon divergence. These approaches were used in two applications: automatic speech recognition and text-independent phone segmentation. The results obtained show that the proposed parametrization highlight acoustic features related to dynamical changes of the vocal tract which are important cues in order to perform the recognition, even in the presence of additive noise. Moreover, the continuous multiresolution divergence provides valuable information that takes into account phoneme transitions, which is of vital importance to perform the segmentation task.
Agencia Nacional de Promoción Científica y Tecnológica
Consejo Nacional de Investigaciones Científicas y Técnicas
description Fil: Cherniz, Analía Soledad. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
publishDate 2017
dc.date.none.fl_str_mv 2017-07-26
2018-09-17
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/acceptedVersion
SNRD
http://purl.org/coar/resource_type/c_bdcc
info:ar-repo/semantics/tesisDeMaestria
format masterThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11185/1125
url http://hdl.handle.net/11185/1125
dc.language.none.fl_str_mv spa
spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
eu_rights_str_mv openAccess
rights_invalid_str_mv Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Virtual (UNL)
instname:Universidad Nacional del Litoral
instacron:UNL
reponame_str Biblioteca Virtual (UNL)
collection Biblioteca Virtual (UNL)
instname_str Universidad Nacional del Litoral
instacron_str UNL
institution UNL
repository.name.fl_str_mv Biblioteca Virtual (UNL) - Universidad Nacional del Litoral
repository.mail.fl_str_mv jdeba@unl.edu.ar
_version_ 1844621938993922048
score 12.559606