Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA

Autores
Defagot, Adrían Gabriel
Año de publicación
2018
Idioma
inglés
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Brusco, Pablo
Riera, Pablo Ernesto
Descripción
En este trabajo se propone la utilización del modelo de extracción de tópicos Latent Dirichlet Allocation (LDA) para el reconocimiento de escenas acústicas a partir de múltiples grabaciones realizadas en diferentes ambientes. A partir de atributos característicos de la señal de audio como sus MFCCs, experimentamos sobre la combinación de técnicas de segmentación, reducción de dimensionalidad (PCA y t-SNE), técnicas de clustering (PAM, K-Means) para construir diferentes diccionarios acústicos que permitiesen transformar sonidos en palabras. La experimentación fue llevada a cabo utilizando el dataset proveniente de la competencia de detección de escenas ac´usticas TUT Acoustic Scenes 2016 y la base de efectos de sonidos BBC Complete Sound Effects Library en donde nos preguntamos si ¿será posible generar un diccionario acústico útil a partir de los datos?, ¿al agrupar sonidos en una misma palabra acústica, es posible que se compartan características auditivas reconocibles por humanos?, ¿los tópicos obtenidos contienen suficiente información como para realizar una tarea de clasificación de escenas?, y ¿los tópicos obtenidos componen un conjunto intuitivo e interpretable de sonidos que caractericen una situación?. Los resultados muestran que si bien la extracción de tópicos no superó el estado del arte en la tarea de detección de escenas acústicas, obtuvimos resultados prometedores y consideramos que decidir sobre la interpretabilidad de dichos tópicos resulta una tarea no trivial en donde serán necesarios experimentos a medida. Finalmente, la utilización de t-SNE como herramienta principal para proyectar características del espacio de alta dimensión, permitió luego agrupaciones acústicas con propiedades rítmicas y tímbricas reconocibles.
In this work we propose the use of the unsupervised topic model technique Latent Dirichlet Allocation (LDA) in an Acoustic Scene Recognition task. Based features we extracted from the audio signal such as MFCCs, we run several experiments combining segmentation techniques, dimensionality reduction (PCA & t-SNE), and clustering techniques (PAM & K-Means) in order to generate multiple acoustic dictionaries used to encode sounds as words. Experiments were carried out using a dataset from the Detection and Classification of Acoustic Scenes and Events 2016 competition (DCASE 2016), and the BBC Complete Sound Effects Library. Some of the research questions we aim were: is it possible to generate a meaningful acoustic dictionary based on this type of data? Do the clustered sounds share some human recognizable acoustic properties? Do extracted topics contain some information that will be useful in an acoustic scene classification task? Are the words in each of the extracted topics a useful description for a given scene?. Our results showed that besides the fact that topic extraction did not surpass the state of the art results in the task of detecting the acoustic scene, promising classification results can be obtained. Deciding about the interpretability of a topic resulted in a non-trivial task that requires tailor made experiments. Finally, using t-SNE as the main technique of dimensionality reduction allowed us to obtain acoustic clusters with both temporal and timbric recognizable properties.
Fil: Defagot, Adrían Gabriel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
DETECCION DE ESCENAS ACUSTICAS
T-SNE
EXTRACCION DE TOPICOS INTERPRETABLES
REDUCCION DE DIMENSIONALIDAD
VOCABULARIO ACUSTICO
ACOUSTIC SCENE RECOGNITION
T-SNE
INTERPRETABLE TOPIC EXTRACTION
DIMENSIONALITY REDUCTION
ACOUSTIC VOCABULARY
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000627_Defagot

id BDUBAFCEN_061ac37591b7f0b1741801c25d69689d
oai_identifier_str seminario:seminario_nCOM000627_Defagot
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDADefagot, Adrían GabrielDETECCION DE ESCENAS ACUSTICAST-SNEEXTRACCION DE TOPICOS INTERPRETABLESREDUCCION DE DIMENSIONALIDADVOCABULARIO ACUSTICOACOUSTIC SCENE RECOGNITIONT-SNEINTERPRETABLE TOPIC EXTRACTIONDIMENSIONALITY REDUCTIONACOUSTIC VOCABULARYEn este trabajo se propone la utilización del modelo de extracción de tópicos Latent Dirichlet Allocation (LDA) para el reconocimiento de escenas acústicas a partir de múltiples grabaciones realizadas en diferentes ambientes. A partir de atributos característicos de la señal de audio como sus MFCCs, experimentamos sobre la combinación de técnicas de segmentación, reducción de dimensionalidad (PCA y t-SNE), técnicas de clustering (PAM, K-Means) para construir diferentes diccionarios acústicos que permitiesen transformar sonidos en palabras. La experimentación fue llevada a cabo utilizando el dataset proveniente de la competencia de detección de escenas ac´usticas TUT Acoustic Scenes 2016 y la base de efectos de sonidos BBC Complete Sound Effects Library en donde nos preguntamos si ¿será posible generar un diccionario acústico útil a partir de los datos?, ¿al agrupar sonidos en una misma palabra acústica, es posible que se compartan características auditivas reconocibles por humanos?, ¿los tópicos obtenidos contienen suficiente información como para realizar una tarea de clasificación de escenas?, y ¿los tópicos obtenidos componen un conjunto intuitivo e interpretable de sonidos que caractericen una situación?. Los resultados muestran que si bien la extracción de tópicos no superó el estado del arte en la tarea de detección de escenas acústicas, obtuvimos resultados prometedores y consideramos que decidir sobre la interpretabilidad de dichos tópicos resulta una tarea no trivial en donde serán necesarios experimentos a medida. Finalmente, la utilización de t-SNE como herramienta principal para proyectar características del espacio de alta dimensión, permitió luego agrupaciones acústicas con propiedades rítmicas y tímbricas reconocibles.In this work we propose the use of the unsupervised topic model technique Latent Dirichlet Allocation (LDA) in an Acoustic Scene Recognition task. Based features we extracted from the audio signal such as MFCCs, we run several experiments combining segmentation techniques, dimensionality reduction (PCA & t-SNE), and clustering techniques (PAM & K-Means) in order to generate multiple acoustic dictionaries used to encode sounds as words. Experiments were carried out using a dataset from the Detection and Classification of Acoustic Scenes and Events 2016 competition (DCASE 2016), and the BBC Complete Sound Effects Library. Some of the research questions we aim were: is it possible to generate a meaningful acoustic dictionary based on this type of data? Do the clustered sounds share some human recognizable acoustic properties? Do extracted topics contain some information that will be useful in an acoustic scene classification task? Are the words in each of the extracted topics a useful description for a given scene?. Our results showed that besides the fact that topic extraction did not surpass the state of the art results in the task of detecting the acoustic scene, promising classification results can be obtained. Deciding about the interpretability of a topic resulted in a non-trivial task that requires tailor made experiments. Finally, using t-SNE as the main technique of dimensionality reduction allowed us to obtain acoustic clusters with both temporal and timbric recognizable properties.Fil: Defagot, Adrían Gabriel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesBrusco, PabloRiera, Pablo Ernesto2018info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000627_Defagotenginfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:40Zseminario:seminario_nCOM000627_DefagotInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:41.831Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA
title Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA
spellingShingle Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA
Defagot, Adrían Gabriel
DETECCION DE ESCENAS ACUSTICAS
T-SNE
EXTRACCION DE TOPICOS INTERPRETABLES
REDUCCION DE DIMENSIONALIDAD
VOCABULARIO ACUSTICO
ACOUSTIC SCENE RECOGNITION
T-SNE
INTERPRETABLE TOPIC EXTRACTION
DIMENSIONALITY REDUCTION
ACOUSTIC VOCABULARY
title_short Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA
title_full Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA
title_fullStr Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA
title_full_unstemmed Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA
title_sort Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA
dc.creator.none.fl_str_mv Defagot, Adrían Gabriel
author Defagot, Adrían Gabriel
author_facet Defagot, Adrían Gabriel
author_role author
dc.contributor.none.fl_str_mv Brusco, Pablo
Riera, Pablo Ernesto
dc.subject.none.fl_str_mv DETECCION DE ESCENAS ACUSTICAS
T-SNE
EXTRACCION DE TOPICOS INTERPRETABLES
REDUCCION DE DIMENSIONALIDAD
VOCABULARIO ACUSTICO
ACOUSTIC SCENE RECOGNITION
T-SNE
INTERPRETABLE TOPIC EXTRACTION
DIMENSIONALITY REDUCTION
ACOUSTIC VOCABULARY
topic DETECCION DE ESCENAS ACUSTICAS
T-SNE
EXTRACCION DE TOPICOS INTERPRETABLES
REDUCCION DE DIMENSIONALIDAD
VOCABULARIO ACUSTICO
ACOUSTIC SCENE RECOGNITION
T-SNE
INTERPRETABLE TOPIC EXTRACTION
DIMENSIONALITY REDUCTION
ACOUSTIC VOCABULARY
dc.description.none.fl_txt_mv En este trabajo se propone la utilización del modelo de extracción de tópicos Latent Dirichlet Allocation (LDA) para el reconocimiento de escenas acústicas a partir de múltiples grabaciones realizadas en diferentes ambientes. A partir de atributos característicos de la señal de audio como sus MFCCs, experimentamos sobre la combinación de técnicas de segmentación, reducción de dimensionalidad (PCA y t-SNE), técnicas de clustering (PAM, K-Means) para construir diferentes diccionarios acústicos que permitiesen transformar sonidos en palabras. La experimentación fue llevada a cabo utilizando el dataset proveniente de la competencia de detección de escenas ac´usticas TUT Acoustic Scenes 2016 y la base de efectos de sonidos BBC Complete Sound Effects Library en donde nos preguntamos si ¿será posible generar un diccionario acústico útil a partir de los datos?, ¿al agrupar sonidos en una misma palabra acústica, es posible que se compartan características auditivas reconocibles por humanos?, ¿los tópicos obtenidos contienen suficiente información como para realizar una tarea de clasificación de escenas?, y ¿los tópicos obtenidos componen un conjunto intuitivo e interpretable de sonidos que caractericen una situación?. Los resultados muestran que si bien la extracción de tópicos no superó el estado del arte en la tarea de detección de escenas acústicas, obtuvimos resultados prometedores y consideramos que decidir sobre la interpretabilidad de dichos tópicos resulta una tarea no trivial en donde serán necesarios experimentos a medida. Finalmente, la utilización de t-SNE como herramienta principal para proyectar características del espacio de alta dimensión, permitió luego agrupaciones acústicas con propiedades rítmicas y tímbricas reconocibles.
In this work we propose the use of the unsupervised topic model technique Latent Dirichlet Allocation (LDA) in an Acoustic Scene Recognition task. Based features we extracted from the audio signal such as MFCCs, we run several experiments combining segmentation techniques, dimensionality reduction (PCA & t-SNE), and clustering techniques (PAM & K-Means) in order to generate multiple acoustic dictionaries used to encode sounds as words. Experiments were carried out using a dataset from the Detection and Classification of Acoustic Scenes and Events 2016 competition (DCASE 2016), and the BBC Complete Sound Effects Library. Some of the research questions we aim were: is it possible to generate a meaningful acoustic dictionary based on this type of data? Do the clustered sounds share some human recognizable acoustic properties? Do extracted topics contain some information that will be useful in an acoustic scene classification task? Are the words in each of the extracted topics a useful description for a given scene?. Our results showed that besides the fact that topic extraction did not surpass the state of the art results in the task of detecting the acoustic scene, promising classification results can be obtained. Deciding about the interpretability of a topic resulted in a non-trivial task that requires tailor made experiments. Finally, using t-SNE as the main technique of dimensionality reduction allowed us to obtain acoustic clusters with both temporal and timbric recognizable properties.
Fil: Defagot, Adrían Gabriel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description En este trabajo se propone la utilización del modelo de extracción de tópicos Latent Dirichlet Allocation (LDA) para el reconocimiento de escenas acústicas a partir de múltiples grabaciones realizadas en diferentes ambientes. A partir de atributos característicos de la señal de audio como sus MFCCs, experimentamos sobre la combinación de técnicas de segmentación, reducción de dimensionalidad (PCA y t-SNE), técnicas de clustering (PAM, K-Means) para construir diferentes diccionarios acústicos que permitiesen transformar sonidos en palabras. La experimentación fue llevada a cabo utilizando el dataset proveniente de la competencia de detección de escenas ac´usticas TUT Acoustic Scenes 2016 y la base de efectos de sonidos BBC Complete Sound Effects Library en donde nos preguntamos si ¿será posible generar un diccionario acústico útil a partir de los datos?, ¿al agrupar sonidos en una misma palabra acústica, es posible que se compartan características auditivas reconocibles por humanos?, ¿los tópicos obtenidos contienen suficiente información como para realizar una tarea de clasificación de escenas?, y ¿los tópicos obtenidos componen un conjunto intuitivo e interpretable de sonidos que caractericen una situación?. Los resultados muestran que si bien la extracción de tópicos no superó el estado del arte en la tarea de detección de escenas acústicas, obtuvimos resultados prometedores y consideramos que decidir sobre la interpretabilidad de dichos tópicos resulta una tarea no trivial en donde serán necesarios experimentos a medida. Finalmente, la utilización de t-SNE como herramienta principal para proyectar características del espacio de alta dimensión, permitió luego agrupaciones acústicas con propiedades rítmicas y tímbricas reconocibles.
publishDate 2018
dc.date.none.fl_str_mv 2018
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000627_Defagot
url https://hdl.handle.net/20.500.12110/seminario_nCOM000627_Defagot
dc.language.none.fl_str_mv eng
language eng
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618757872287744
score 13.070432