Técnicas de aprendizaje maquinal para separación ciega de fuentes sonoras con aplicación al reconocimiento automático del habla

Autores
Di Persia, Leandro Ezequiel
Año de publicación
2009
Idioma
inglés
Tipo de recurso
tesis doctoral
Estado
versión aceptada
Colaborador/a o director/a de tesis
Milone, Diego Humberto
Cosseau, Juan
Muravchik, Carlos
Gómez, Juan Carlos
Giovanini, Leonardo Luis
Yanagida, Masuzo
Descripción
Fil: Di Persia, Leandro Ezequiel. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
In the last decades a new problem related to machine learning and signal processing has emerged in many disciplines: the blind source separation problem. The blind source separation technique aims to segregate the sources that contribute to some variation of a physical quantity, given a set of measurements of the global variation produced by all sources at a time. One particular application of the blind source separation methods is the Automatic Speech Recognition, which can be defined as the task of determining the text that corresponds to a given spoken utterance. This kind of systems have reached a maturity point but they still suffer from a strong drawback: they cannot adequatelly manage the existence of noise or competing sources in the input. This doctoral dissertation presents several advances in the technique of audio source separation in reverberat conditions, using independent component analysis in the time-frequency domain. Three methods were developed in order to produce a better quality of separation and, at the same time, to reduce the processing times. The proposed algorithms were evaluated under realistic conditions such as different environments and different kind and power of competing sources. For this purpose we used two evaluation alternatives, objective quality measures of the resulting signal and the performance in the application of interest, that is, automatic speech recognition. The results for the different approaches show the possibility of getting through the dilemma between resulting quality and requiered processing time, converging to a very fast and high quality separation method.
En las últimas décadas el problema de separación ciega de fuentes ha emergido en varias disciplinas relacionadas con el procesamiento digital de señales y el aprendizaje maquinal. En la resolución de este problema el objetivo es obtener por separado las fuentes que generaron en conjunto determinada variación de alguna cantidad física, dado un conjunto de mediciones del efecto conjunto de todas las fuentes. Entre las aplicaciones de interés para tal técnica está el reconocimiento automático del habla, en el cual se busca obtener una transcripción escrita a partir del habla emitida por una persona. Estos sistemas han alcanzado un grado de madurez pero todavía sufren de una gran desventaja: no pueden manejar adecuadamente la existencia de ruido en la entrada. En esta tesis se proponen tres técnicas basadas en el análisis de componentes independientes en el dominio frecuencial, para producir una efectiva separación de las fuentes sonoras presentes en un cuarto con reverberación. Para la evaluación del desempeño de las mismas se realizó un estudio exhaustivo de medidas objetivas de calidad, y se desarrolló un protocolo experimental que permite una evaluación comparativa del desempeño. Además se realizó la evaluación de los mismos mediante la tasa de reconocimiento de un sistema de reconocimiento automático del habla, y se evaluó también el tiempo de cálculo. Los resultados se contrastaron con los de métodos del estado del arte para esta tarea. Se verificó que todos los métodos propuestos produjeron importantes mejoras tanto en la calidad objetiva como en la tasa de reconocimiento.
Consejo Nacional de Investigaciones Científicas y Técnicas
Agencia Nacional de Promoción Científica y Tecnológica
Materia
Blind source separation
Independent component analysis
Reverberation
Ambient noise
Robust speech recognition
Objective quality evaluation
Separación ciega de fuentes sonoras
Análisis de componentes independientes
Reverberación
Ruido del ambiente
Reconocimiento robusto del habla
Evaluación objetiva de calidad
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
Repositorio
Biblioteca Virtual (UNL)
Institución
Universidad Nacional del Litoral
OAI Identificador
oai:https://bibliotecavirtual.unl.edu.ar:11185/182

id UNLBT_1f2bc961d1e07d28a999c851e8e2c24b
oai_identifier_str oai:https://bibliotecavirtual.unl.edu.ar:11185/182
network_acronym_str UNLBT
repository_id_str 2187
network_name_str Biblioteca Virtual (UNL)
spelling Técnicas de aprendizaje maquinal para separación ciega de fuentes sonoras con aplicación al reconocimiento automático del hablaMachine learning techniques for audio blind source separation applied to automatic speech recognitionDi Persia, Leandro EzequielBlind source separationIndependent component analysisReverberationAmbient noiseRobust speech recognitionObjective quality evaluationSeparación ciega de fuentes sonorasAnálisis de componentes independientesReverberaciónRuido del ambienteReconocimiento robusto del hablaEvaluación objetiva de calidadFil: Di Persia, Leandro Ezequiel. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.In the last decades a new problem related to machine learning and signal processing has emerged in many disciplines: the blind source separation problem. The blind source separation technique aims to segregate the sources that contribute to some variation of a physical quantity, given a set of measurements of the global variation produced by all sources at a time. One particular application of the blind source separation methods is the Automatic Speech Recognition, which can be defined as the task of determining the text that corresponds to a given spoken utterance. This kind of systems have reached a maturity point but they still suffer from a strong drawback: they cannot adequatelly manage the existence of noise or competing sources in the input. This doctoral dissertation presents several advances in the technique of audio source separation in reverberat conditions, using independent component analysis in the time-frequency domain. Three methods were developed in order to produce a better quality of separation and, at the same time, to reduce the processing times. The proposed algorithms were evaluated under realistic conditions such as different environments and different kind and power of competing sources. For this purpose we used two evaluation alternatives, objective quality measures of the resulting signal and the performance in the application of interest, that is, automatic speech recognition. The results for the different approaches show the possibility of getting through the dilemma between resulting quality and requiered processing time, converging to a very fast and high quality separation method.En las últimas décadas el problema de separación ciega de fuentes ha emergido en varias disciplinas relacionadas con el procesamiento digital de señales y el aprendizaje maquinal. En la resolución de este problema el objetivo es obtener por separado las fuentes que generaron en conjunto determinada variación de alguna cantidad física, dado un conjunto de mediciones del efecto conjunto de todas las fuentes. Entre las aplicaciones de interés para tal técnica está el reconocimiento automático del habla, en el cual se busca obtener una transcripción escrita a partir del habla emitida por una persona. Estos sistemas han alcanzado un grado de madurez pero todavía sufren de una gran desventaja: no pueden manejar adecuadamente la existencia de ruido en la entrada. En esta tesis se proponen tres técnicas basadas en el análisis de componentes independientes en el dominio frecuencial, para producir una efectiva separación de las fuentes sonoras presentes en un cuarto con reverberación. Para la evaluación del desempeño de las mismas se realizó un estudio exhaustivo de medidas objetivas de calidad, y se desarrolló un protocolo experimental que permite una evaluación comparativa del desempeño. Además se realizó la evaluación de los mismos mediante la tasa de reconocimiento de un sistema de reconocimiento automático del habla, y se evaluó también el tiempo de cálculo. Los resultados se contrastaron con los de métodos del estado del arte para esta tarea. Se verificó que todos los métodos propuestos produjeron importantes mejoras tanto en la calidad objetiva como en la tasa de reconocimiento.Consejo Nacional de Investigaciones Científicas y TécnicasAgencia Nacional de Promoción Científica y TecnológicaMilone, Diego HumbertoCosseau, JuanMuravchik, CarlosGómez, Juan CarlosGiovanini, Leonardo LuisYanagida, Masuzo2010-07-082009-03-26info:eu-repo/semantics/doctoralThesisSNRDinfo:eu-repo/semantics/acceptedVersionThesishttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfapplication/pdfhttp://hdl.handle.net/11185/182engenginfo:eu-repo/semantics/openAccessAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)http://creativecommons.org/licenses/by-nc-nd/4.0/deed.esreponame:Biblioteca Virtual (UNL)instname:Universidad Nacional del Litoralinstacron:UNL2025-10-16T10:11:11Zoai:https://bibliotecavirtual.unl.edu.ar:11185/182Institucionalhttp://bibliotecavirtual.unl.edu.ar/Universidad públicaNo correspondeajdeba@unl.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:21872025-10-16 10:11:11.888Biblioteca Virtual (UNL) - Universidad Nacional del Litoralfalse
dc.title.none.fl_str_mv Técnicas de aprendizaje maquinal para separación ciega de fuentes sonoras con aplicación al reconocimiento automático del habla
Machine learning techniques for audio blind source separation applied to automatic speech recognition
title Técnicas de aprendizaje maquinal para separación ciega de fuentes sonoras con aplicación al reconocimiento automático del habla
spellingShingle Técnicas de aprendizaje maquinal para separación ciega de fuentes sonoras con aplicación al reconocimiento automático del habla
Di Persia, Leandro Ezequiel
Blind source separation
Independent component analysis
Reverberation
Ambient noise
Robust speech recognition
Objective quality evaluation
Separación ciega de fuentes sonoras
Análisis de componentes independientes
Reverberación
Ruido del ambiente
Reconocimiento robusto del habla
Evaluación objetiva de calidad
title_short Técnicas de aprendizaje maquinal para separación ciega de fuentes sonoras con aplicación al reconocimiento automático del habla
title_full Técnicas de aprendizaje maquinal para separación ciega de fuentes sonoras con aplicación al reconocimiento automático del habla
title_fullStr Técnicas de aprendizaje maquinal para separación ciega de fuentes sonoras con aplicación al reconocimiento automático del habla
title_full_unstemmed Técnicas de aprendizaje maquinal para separación ciega de fuentes sonoras con aplicación al reconocimiento automático del habla
title_sort Técnicas de aprendizaje maquinal para separación ciega de fuentes sonoras con aplicación al reconocimiento automático del habla
dc.creator.none.fl_str_mv Di Persia, Leandro Ezequiel
author Di Persia, Leandro Ezequiel
author_facet Di Persia, Leandro Ezequiel
author_role author
dc.contributor.none.fl_str_mv Milone, Diego Humberto
Cosseau, Juan
Muravchik, Carlos
Gómez, Juan Carlos
Giovanini, Leonardo Luis
Yanagida, Masuzo
dc.subject.none.fl_str_mv Blind source separation
Independent component analysis
Reverberation
Ambient noise
Robust speech recognition
Objective quality evaluation
Separación ciega de fuentes sonoras
Análisis de componentes independientes
Reverberación
Ruido del ambiente
Reconocimiento robusto del habla
Evaluación objetiva de calidad
topic Blind source separation
Independent component analysis
Reverberation
Ambient noise
Robust speech recognition
Objective quality evaluation
Separación ciega de fuentes sonoras
Análisis de componentes independientes
Reverberación
Ruido del ambiente
Reconocimiento robusto del habla
Evaluación objetiva de calidad
dc.description.none.fl_txt_mv Fil: Di Persia, Leandro Ezequiel. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
In the last decades a new problem related to machine learning and signal processing has emerged in many disciplines: the blind source separation problem. The blind source separation technique aims to segregate the sources that contribute to some variation of a physical quantity, given a set of measurements of the global variation produced by all sources at a time. One particular application of the blind source separation methods is the Automatic Speech Recognition, which can be defined as the task of determining the text that corresponds to a given spoken utterance. This kind of systems have reached a maturity point but they still suffer from a strong drawback: they cannot adequatelly manage the existence of noise or competing sources in the input. This doctoral dissertation presents several advances in the technique of audio source separation in reverberat conditions, using independent component analysis in the time-frequency domain. Three methods were developed in order to produce a better quality of separation and, at the same time, to reduce the processing times. The proposed algorithms were evaluated under realistic conditions such as different environments and different kind and power of competing sources. For this purpose we used two evaluation alternatives, objective quality measures of the resulting signal and the performance in the application of interest, that is, automatic speech recognition. The results for the different approaches show the possibility of getting through the dilemma between resulting quality and requiered processing time, converging to a very fast and high quality separation method.
En las últimas décadas el problema de separación ciega de fuentes ha emergido en varias disciplinas relacionadas con el procesamiento digital de señales y el aprendizaje maquinal. En la resolución de este problema el objetivo es obtener por separado las fuentes que generaron en conjunto determinada variación de alguna cantidad física, dado un conjunto de mediciones del efecto conjunto de todas las fuentes. Entre las aplicaciones de interés para tal técnica está el reconocimiento automático del habla, en el cual se busca obtener una transcripción escrita a partir del habla emitida por una persona. Estos sistemas han alcanzado un grado de madurez pero todavía sufren de una gran desventaja: no pueden manejar adecuadamente la existencia de ruido en la entrada. En esta tesis se proponen tres técnicas basadas en el análisis de componentes independientes en el dominio frecuencial, para producir una efectiva separación de las fuentes sonoras presentes en un cuarto con reverberación. Para la evaluación del desempeño de las mismas se realizó un estudio exhaustivo de medidas objetivas de calidad, y se desarrolló un protocolo experimental que permite una evaluación comparativa del desempeño. Además se realizó la evaluación de los mismos mediante la tasa de reconocimiento de un sistema de reconocimiento automático del habla, y se evaluó también el tiempo de cálculo. Los resultados se contrastaron con los de métodos del estado del arte para esta tarea. Se verificó que todos los métodos propuestos produjeron importantes mejoras tanto en la calidad objetiva como en la tasa de reconocimiento.
Consejo Nacional de Investigaciones Científicas y Técnicas
Agencia Nacional de Promoción Científica y Tecnológica
description Fil: Di Persia, Leandro Ezequiel. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
publishDate 2009
dc.date.none.fl_str_mv 2009-03-26
2010-07-08
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
SNRD
info:eu-repo/semantics/acceptedVersion
Thesis
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11185/182
url http://hdl.handle.net/11185/182
dc.language.none.fl_str_mv eng
eng
language eng
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
eu_rights_str_mv openAccess
rights_invalid_str_mv Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Virtual (UNL)
instname:Universidad Nacional del Litoral
instacron:UNL
reponame_str Biblioteca Virtual (UNL)
collection Biblioteca Virtual (UNL)
instname_str Universidad Nacional del Litoral
instacron_str UNL
institution UNL
repository.name.fl_str_mv Biblioteca Virtual (UNL) - Universidad Nacional del Litoral
repository.mail.fl_str_mv jdeba@unl.edu.ar
_version_ 1846146229028782080
score 12.712165