Modelos de factorización en matrices no negativas para procesamiento de audio

Autores
Ibarrola, Francisco Javier
Año de publicación
2019
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión aceptada
Colaborador/a o director/a de tesis
Di Persia, Leandro Ezequiel
Aimar, Hugo
Flesia, Ana Georgina
Schlotthauer, Gastón
Spies, Rubén Daniel
Descripción
Fil: Ibarrola, Francisco Javier. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
Along the technological advances regarding portable electronic devices, over the last years the need for improving human machine interactions through speech has arise. One of the main challenges within this contexts has to do with the fact that a recording device does not register the target signal directly, but distorted with noise, echoes and other sound sources. In order to model these phenomena in a computationally efficient way and to gain interpretability, we can make use of nonnegative matrix factorization (NMF) techniques, that allow for a piecewise and purely additive representation of the data. Nevertheless, the classical NMF approaches present drawbacks associated to the lack of uniqueness in the representations. Furthermore, the current optimization methods are based on iterative, multiplicative algorithms that are not immediately adaptable to models contemplating certain time or frequency relations between their elements. In this thesis, new NMF methods are developed in order to tackle the problems of dereveberation and speech source separation. Through a Bayesian approach, and the associated penalization functions, certain characteristics are imposed over the elements constituting the model, which allows sorting out some classical difficulties within this context, associated to the lack of uniqueness and correlation in representations. Also, optimization algorithms are developed in order to tackle the minimization problems associated to the built functional, that allow for incorporating certain types of penalizers that due to their characteristics cannot be defined element by element.
A la par de los avances tecnológicos de los aparatos electrónicos portátiles, ha surgido en los últimos años la necesidad de mejorar la interacción entre hombre y máquina a través del habla. Uno de los desafíos en este contexto tiene que ver con que un dispositivo de grabación no registra la señal deseada de manera directa, sino distorsionada mediante ruido, ecos y la presencia de otras fuentes sonoras. Para modelar estos fenómenos de manera computacionalmente eficiente y ganar interpretabilidad, podemos hacer uso de técnicas de factorización en matrices no negativas (NMF), que permiten una representación de los datos por partes y puramente aditiva. No obstante, los enfoques clásicos de NMF presentan dificultades asociadas a falta de unicidad en las representaciones. Por otro lado, los métodos de optimización actuales están basados en algoritmos iterativos y multiplicativos, que no son inmediatamente adaptables a modelos que contemplen ciertas relaciones temporales o frecuenciales entre sus elementos. En esta tesis se desarrollan nuevos métodos de NMF para abordar los problemas de dereveberación y separación de fuentes de habla. A través de un enfoque bayesiano y sus funciones de penalización asociadas se imponen características particulares sobre los elementos del modelo, lo que permite superar algunas dificultades clásicas en este contexto, asociadas a la falta de unicidad y decorrelación en las representaciones. Además, se desarrollan algoritmos de optimización para resolver los problemas de minimización asociados a los funcionales construidos, que permiten incorporar ciertos tipos de penalizantes que por sus características no pueden ser definidos elemento a elemento.
Consejo Nacional de Investigaciones Científicas y Técnicas
Materia
Dereverberation
Source separation
Machine learning
Signal processing
Dereverberación
Separación de fuentes sonoras
Aprendizaje maquinal
Procesamiento de señales
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
Repositorio
Biblioteca Virtual (UNL)
Institución
Universidad Nacional del Litoral
OAI Identificador
oai:https://bibliotecavirtual.unl.edu.ar:11185/5153

id UNLBT_94cfb5e98ddecb8a2f6154e998767c1b
oai_identifier_str oai:https://bibliotecavirtual.unl.edu.ar:11185/5153
network_acronym_str UNLBT
repository_id_str 2187
network_name_str Biblioteca Virtual (UNL)
spelling Modelos de factorización en matrices no negativas para procesamiento de audioNonnegative matrix factorization models for audio processingIbarrola, Francisco JavierDereverberationSource separationMachine learningSignal processingDereverberaciónSeparación de fuentes sonorasAprendizaje maquinalProcesamiento de señalesFil: Ibarrola, Francisco Javier. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.Along the technological advances regarding portable electronic devices, over the last years the need for improving human machine interactions through speech has arise. One of the main challenges within this contexts has to do with the fact that a recording device does not register the target signal directly, but distorted with noise, echoes and other sound sources. In order to model these phenomena in a computationally efficient way and to gain interpretability, we can make use of nonnegative matrix factorization (NMF) techniques, that allow for a piecewise and purely additive representation of the data. Nevertheless, the classical NMF approaches present drawbacks associated to the lack of uniqueness in the representations. Furthermore, the current optimization methods are based on iterative, multiplicative algorithms that are not immediately adaptable to models contemplating certain time or frequency relations between their elements. In this thesis, new NMF methods are developed in order to tackle the problems of dereveberation and speech source separation. Through a Bayesian approach, and the associated penalization functions, certain characteristics are imposed over the elements constituting the model, which allows sorting out some classical difficulties within this context, associated to the lack of uniqueness and correlation in representations. Also, optimization algorithms are developed in order to tackle the minimization problems associated to the built functional, that allow for incorporating certain types of penalizers that due to their characteristics cannot be defined element by element.A la par de los avances tecnológicos de los aparatos electrónicos portátiles, ha surgido en los últimos años la necesidad de mejorar la interacción entre hombre y máquina a través del habla. Uno de los desafíos en este contexto tiene que ver con que un dispositivo de grabación no registra la señal deseada de manera directa, sino distorsionada mediante ruido, ecos y la presencia de otras fuentes sonoras. Para modelar estos fenómenos de manera computacionalmente eficiente y ganar interpretabilidad, podemos hacer uso de técnicas de factorización en matrices no negativas (NMF), que permiten una representación de los datos por partes y puramente aditiva. No obstante, los enfoques clásicos de NMF presentan dificultades asociadas a falta de unicidad en las representaciones. Por otro lado, los métodos de optimización actuales están basados en algoritmos iterativos y multiplicativos, que no son inmediatamente adaptables a modelos que contemplen ciertas relaciones temporales o frecuenciales entre sus elementos. En esta tesis se desarrollan nuevos métodos de NMF para abordar los problemas de dereveberación y separación de fuentes de habla. A través de un enfoque bayesiano y sus funciones de penalización asociadas se imponen características particulares sobre los elementos del modelo, lo que permite superar algunas dificultades clásicas en este contexto, asociadas a la falta de unicidad y decorrelación en las representaciones. Además, se desarrollan algoritmos de optimización para resolver los problemas de minimización asociados a los funcionales construidos, que permiten incorporar ciertos tipos de penalizantes que por sus características no pueden ser definidos elemento a elemento.Consejo Nacional de Investigaciones Científicas y TécnicasDi Persia, Leandro EzequielAimar, HugoFlesia, Ana GeorginaSchlotthauer, GastónSpies, Rubén Daniel2019-10-08T16:56:01Z2019-09-06info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionSNRDhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/11185/5153spainfo:eu-repo/semantics/openAccessAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)http://creativecommons.org/licenses/by-nc-nd/4.0/deed.esreponame:Biblioteca Virtual (UNL)instname:Universidad Nacional del Litoralinstacron:UNL2025-09-29T14:30:30Zoai:https://bibliotecavirtual.unl.edu.ar:11185/5153Institucionalhttp://bibliotecavirtual.unl.edu.ar/Universidad públicaNo correspondeajdeba@unl.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:21872025-09-29 14:30:30.53Biblioteca Virtual (UNL) - Universidad Nacional del Litoralfalse
dc.title.none.fl_str_mv Modelos de factorización en matrices no negativas para procesamiento de audio
Nonnegative matrix factorization models for audio processing
title Modelos de factorización en matrices no negativas para procesamiento de audio
spellingShingle Modelos de factorización en matrices no negativas para procesamiento de audio
Ibarrola, Francisco Javier
Dereverberation
Source separation
Machine learning
Signal processing
Dereverberación
Separación de fuentes sonoras
Aprendizaje maquinal
Procesamiento de señales
title_short Modelos de factorización en matrices no negativas para procesamiento de audio
title_full Modelos de factorización en matrices no negativas para procesamiento de audio
title_fullStr Modelos de factorización en matrices no negativas para procesamiento de audio
title_full_unstemmed Modelos de factorización en matrices no negativas para procesamiento de audio
title_sort Modelos de factorización en matrices no negativas para procesamiento de audio
dc.creator.none.fl_str_mv Ibarrola, Francisco Javier
author Ibarrola, Francisco Javier
author_facet Ibarrola, Francisco Javier
author_role author
dc.contributor.none.fl_str_mv Di Persia, Leandro Ezequiel
Aimar, Hugo
Flesia, Ana Georgina
Schlotthauer, Gastón
Spies, Rubén Daniel
dc.subject.none.fl_str_mv Dereverberation
Source separation
Machine learning
Signal processing
Dereverberación
Separación de fuentes sonoras
Aprendizaje maquinal
Procesamiento de señales
topic Dereverberation
Source separation
Machine learning
Signal processing
Dereverberación
Separación de fuentes sonoras
Aprendizaje maquinal
Procesamiento de señales
dc.description.none.fl_txt_mv Fil: Ibarrola, Francisco Javier. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
Along the technological advances regarding portable electronic devices, over the last years the need for improving human machine interactions through speech has arise. One of the main challenges within this contexts has to do with the fact that a recording device does not register the target signal directly, but distorted with noise, echoes and other sound sources. In order to model these phenomena in a computationally efficient way and to gain interpretability, we can make use of nonnegative matrix factorization (NMF) techniques, that allow for a piecewise and purely additive representation of the data. Nevertheless, the classical NMF approaches present drawbacks associated to the lack of uniqueness in the representations. Furthermore, the current optimization methods are based on iterative, multiplicative algorithms that are not immediately adaptable to models contemplating certain time or frequency relations between their elements. In this thesis, new NMF methods are developed in order to tackle the problems of dereveberation and speech source separation. Through a Bayesian approach, and the associated penalization functions, certain characteristics are imposed over the elements constituting the model, which allows sorting out some classical difficulties within this context, associated to the lack of uniqueness and correlation in representations. Also, optimization algorithms are developed in order to tackle the minimization problems associated to the built functional, that allow for incorporating certain types of penalizers that due to their characteristics cannot be defined element by element.
A la par de los avances tecnológicos de los aparatos electrónicos portátiles, ha surgido en los últimos años la necesidad de mejorar la interacción entre hombre y máquina a través del habla. Uno de los desafíos en este contexto tiene que ver con que un dispositivo de grabación no registra la señal deseada de manera directa, sino distorsionada mediante ruido, ecos y la presencia de otras fuentes sonoras. Para modelar estos fenómenos de manera computacionalmente eficiente y ganar interpretabilidad, podemos hacer uso de técnicas de factorización en matrices no negativas (NMF), que permiten una representación de los datos por partes y puramente aditiva. No obstante, los enfoques clásicos de NMF presentan dificultades asociadas a falta de unicidad en las representaciones. Por otro lado, los métodos de optimización actuales están basados en algoritmos iterativos y multiplicativos, que no son inmediatamente adaptables a modelos que contemplen ciertas relaciones temporales o frecuenciales entre sus elementos. En esta tesis se desarrollan nuevos métodos de NMF para abordar los problemas de dereveberación y separación de fuentes de habla. A través de un enfoque bayesiano y sus funciones de penalización asociadas se imponen características particulares sobre los elementos del modelo, lo que permite superar algunas dificultades clásicas en este contexto, asociadas a la falta de unicidad y decorrelación en las representaciones. Además, se desarrollan algoritmos de optimización para resolver los problemas de minimización asociados a los funcionales construidos, que permiten incorporar ciertos tipos de penalizantes que por sus características no pueden ser definidos elemento a elemento.
Consejo Nacional de Investigaciones Científicas y Técnicas
description Fil: Ibarrola, Francisco Javier. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
publishDate 2019
dc.date.none.fl_str_mv 2019-10-08T16:56:01Z
2019-09-06
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/acceptedVersion
SNRD
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/11185/5153
url https://hdl.handle.net/11185/5153
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
eu_rights_str_mv openAccess
rights_invalid_str_mv Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Virtual (UNL)
instname:Universidad Nacional del Litoral
instacron:UNL
reponame_str Biblioteca Virtual (UNL)
collection Biblioteca Virtual (UNL)
instname_str Universidad Nacional del Litoral
instacron_str UNL
institution UNL
repository.name.fl_str_mv Biblioteca Virtual (UNL) - Universidad Nacional del Litoral
repository.mail.fl_str_mv jdeba@unl.edu.ar
_version_ 1844621946166181888
score 12.559606