Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA
- Autores
- Defagot, Adrían Gabriel
- Año de publicación
- 2018
- Idioma
- inglés
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Brusco, Pablo
Riera, Pablo Ernesto - Descripción
- En este trabajo se propone la utilización del modelo de extracción de tópicos Latent Dirichlet Allocation (LDA) para el reconocimiento de escenas acústicas a partir de múltiples grabaciones realizadas en diferentes ambientes. A partir de atributos característicos de la señal de audio como sus MFCCs, experimentamos sobre la combinación de técnicas de segmentación, reducción de dimensionalidad (PCA y t-SNE), técnicas de clustering (PAM, K-Means) para construir diferentes diccionarios acústicos que permitiesen transformar sonidos en palabras. La experimentación fue llevada a cabo utilizando el dataset proveniente de la competencia de detección de escenas ac´usticas TUT Acoustic Scenes 2016 y la base de efectos de sonidos BBC Complete Sound Effects Library en donde nos preguntamos si ¿será posible generar un diccionario acústico útil a partir de los datos?, ¿al agrupar sonidos en una misma palabra acústica, es posible que se compartan características auditivas reconocibles por humanos?, ¿los tópicos obtenidos contienen suficiente información como para realizar una tarea de clasificación de escenas?, y ¿los tópicos obtenidos componen un conjunto intuitivo e interpretable de sonidos que caractericen una situación?. Los resultados muestran que si bien la extracción de tópicos no superó el estado del arte en la tarea de detección de escenas acústicas, obtuvimos resultados prometedores y consideramos que decidir sobre la interpretabilidad de dichos tópicos resulta una tarea no trivial en donde serán necesarios experimentos a medida. Finalmente, la utilización de t-SNE como herramienta principal para proyectar características del espacio de alta dimensión, permitió luego agrupaciones acústicas con propiedades rítmicas y tímbricas reconocibles.
In this work we propose the use of the unsupervised topic model technique Latent Dirichlet Allocation (LDA) in an Acoustic Scene Recognition task. Based features we extracted from the audio signal such as MFCCs, we run several experiments combining segmentation techniques, dimensionality reduction (PCA & t-SNE), and clustering techniques (PAM & K-Means) in order to generate multiple acoustic dictionaries used to encode sounds as words. Experiments were carried out using a dataset from the Detection and Classification of Acoustic Scenes and Events 2016 competition (DCASE 2016), and the BBC Complete Sound Effects Library. Some of the research questions we aim were: is it possible to generate a meaningful acoustic dictionary based on this type of data? Do the clustered sounds share some human recognizable acoustic properties? Do extracted topics contain some information that will be useful in an acoustic scene classification task? Are the words in each of the extracted topics a useful description for a given scene?. Our results showed that besides the fact that topic extraction did not surpass the state of the art results in the task of detecting the acoustic scene, promising classification results can be obtained. Deciding about the interpretability of a topic resulted in a non-trivial task that requires tailor made experiments. Finally, using t-SNE as the main technique of dimensionality reduction allowed us to obtain acoustic clusters with both temporal and timbric recognizable properties.
Fil: Defagot, Adrían Gabriel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
DETECCION DE ESCENAS ACUSTICAS
T-SNE
EXTRACCION DE TOPICOS INTERPRETABLES
REDUCCION DE DIMENSIONALIDAD
VOCABULARIO ACUSTICO
ACOUSTIC SCENE RECOGNITION
T-SNE
INTERPRETABLE TOPIC EXTRACTION
DIMENSIONALITY REDUCTION
ACOUSTIC VOCABULARY - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000627_Defagot
Ver los metadatos del registro completo
id |
BDUBAFCEN_061ac37591b7f0b1741801c25d69689d |
---|---|
oai_identifier_str |
seminario:seminario_nCOM000627_Defagot |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDADefagot, Adrían GabrielDETECCION DE ESCENAS ACUSTICAST-SNEEXTRACCION DE TOPICOS INTERPRETABLESREDUCCION DE DIMENSIONALIDADVOCABULARIO ACUSTICOACOUSTIC SCENE RECOGNITIONT-SNEINTERPRETABLE TOPIC EXTRACTIONDIMENSIONALITY REDUCTIONACOUSTIC VOCABULARYEn este trabajo se propone la utilización del modelo de extracción de tópicos Latent Dirichlet Allocation (LDA) para el reconocimiento de escenas acústicas a partir de múltiples grabaciones realizadas en diferentes ambientes. A partir de atributos característicos de la señal de audio como sus MFCCs, experimentamos sobre la combinación de técnicas de segmentación, reducción de dimensionalidad (PCA y t-SNE), técnicas de clustering (PAM, K-Means) para construir diferentes diccionarios acústicos que permitiesen transformar sonidos en palabras. La experimentación fue llevada a cabo utilizando el dataset proveniente de la competencia de detección de escenas ac´usticas TUT Acoustic Scenes 2016 y la base de efectos de sonidos BBC Complete Sound Effects Library en donde nos preguntamos si ¿será posible generar un diccionario acústico útil a partir de los datos?, ¿al agrupar sonidos en una misma palabra acústica, es posible que se compartan características auditivas reconocibles por humanos?, ¿los tópicos obtenidos contienen suficiente información como para realizar una tarea de clasificación de escenas?, y ¿los tópicos obtenidos componen un conjunto intuitivo e interpretable de sonidos que caractericen una situación?. Los resultados muestran que si bien la extracción de tópicos no superó el estado del arte en la tarea de detección de escenas acústicas, obtuvimos resultados prometedores y consideramos que decidir sobre la interpretabilidad de dichos tópicos resulta una tarea no trivial en donde serán necesarios experimentos a medida. Finalmente, la utilización de t-SNE como herramienta principal para proyectar características del espacio de alta dimensión, permitió luego agrupaciones acústicas con propiedades rítmicas y tímbricas reconocibles.In this work we propose the use of the unsupervised topic model technique Latent Dirichlet Allocation (LDA) in an Acoustic Scene Recognition task. Based features we extracted from the audio signal such as MFCCs, we run several experiments combining segmentation techniques, dimensionality reduction (PCA & t-SNE), and clustering techniques (PAM & K-Means) in order to generate multiple acoustic dictionaries used to encode sounds as words. Experiments were carried out using a dataset from the Detection and Classification of Acoustic Scenes and Events 2016 competition (DCASE 2016), and the BBC Complete Sound Effects Library. Some of the research questions we aim were: is it possible to generate a meaningful acoustic dictionary based on this type of data? Do the clustered sounds share some human recognizable acoustic properties? Do extracted topics contain some information that will be useful in an acoustic scene classification task? Are the words in each of the extracted topics a useful description for a given scene?. Our results showed that besides the fact that topic extraction did not surpass the state of the art results in the task of detecting the acoustic scene, promising classification results can be obtained. Deciding about the interpretability of a topic resulted in a non-trivial task that requires tailor made experiments. Finally, using t-SNE as the main technique of dimensionality reduction allowed us to obtain acoustic clusters with both temporal and timbric recognizable properties.Fil: Defagot, Adrían Gabriel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesBrusco, PabloRiera, Pablo Ernesto2018info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000627_Defagotenginfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:40Zseminario:seminario_nCOM000627_DefagotInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:41.831Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA |
title |
Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA |
spellingShingle |
Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA Defagot, Adrían Gabriel DETECCION DE ESCENAS ACUSTICAS T-SNE EXTRACCION DE TOPICOS INTERPRETABLES REDUCCION DE DIMENSIONALIDAD VOCABULARIO ACUSTICO ACOUSTIC SCENE RECOGNITION T-SNE INTERPRETABLE TOPIC EXTRACTION DIMENSIONALITY REDUCTION ACOUSTIC VOCABULARY |
title_short |
Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA |
title_full |
Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA |
title_fullStr |
Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA |
title_full_unstemmed |
Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA |
title_sort |
Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA |
dc.creator.none.fl_str_mv |
Defagot, Adrían Gabriel |
author |
Defagot, Adrían Gabriel |
author_facet |
Defagot, Adrían Gabriel |
author_role |
author |
dc.contributor.none.fl_str_mv |
Brusco, Pablo Riera, Pablo Ernesto |
dc.subject.none.fl_str_mv |
DETECCION DE ESCENAS ACUSTICAS T-SNE EXTRACCION DE TOPICOS INTERPRETABLES REDUCCION DE DIMENSIONALIDAD VOCABULARIO ACUSTICO ACOUSTIC SCENE RECOGNITION T-SNE INTERPRETABLE TOPIC EXTRACTION DIMENSIONALITY REDUCTION ACOUSTIC VOCABULARY |
topic |
DETECCION DE ESCENAS ACUSTICAS T-SNE EXTRACCION DE TOPICOS INTERPRETABLES REDUCCION DE DIMENSIONALIDAD VOCABULARIO ACUSTICO ACOUSTIC SCENE RECOGNITION T-SNE INTERPRETABLE TOPIC EXTRACTION DIMENSIONALITY REDUCTION ACOUSTIC VOCABULARY |
dc.description.none.fl_txt_mv |
En este trabajo se propone la utilización del modelo de extracción de tópicos Latent Dirichlet Allocation (LDA) para el reconocimiento de escenas acústicas a partir de múltiples grabaciones realizadas en diferentes ambientes. A partir de atributos característicos de la señal de audio como sus MFCCs, experimentamos sobre la combinación de técnicas de segmentación, reducción de dimensionalidad (PCA y t-SNE), técnicas de clustering (PAM, K-Means) para construir diferentes diccionarios acústicos que permitiesen transformar sonidos en palabras. La experimentación fue llevada a cabo utilizando el dataset proveniente de la competencia de detección de escenas ac´usticas TUT Acoustic Scenes 2016 y la base de efectos de sonidos BBC Complete Sound Effects Library en donde nos preguntamos si ¿será posible generar un diccionario acústico útil a partir de los datos?, ¿al agrupar sonidos en una misma palabra acústica, es posible que se compartan características auditivas reconocibles por humanos?, ¿los tópicos obtenidos contienen suficiente información como para realizar una tarea de clasificación de escenas?, y ¿los tópicos obtenidos componen un conjunto intuitivo e interpretable de sonidos que caractericen una situación?. Los resultados muestran que si bien la extracción de tópicos no superó el estado del arte en la tarea de detección de escenas acústicas, obtuvimos resultados prometedores y consideramos que decidir sobre la interpretabilidad de dichos tópicos resulta una tarea no trivial en donde serán necesarios experimentos a medida. Finalmente, la utilización de t-SNE como herramienta principal para proyectar características del espacio de alta dimensión, permitió luego agrupaciones acústicas con propiedades rítmicas y tímbricas reconocibles. In this work we propose the use of the unsupervised topic model technique Latent Dirichlet Allocation (LDA) in an Acoustic Scene Recognition task. Based features we extracted from the audio signal such as MFCCs, we run several experiments combining segmentation techniques, dimensionality reduction (PCA & t-SNE), and clustering techniques (PAM & K-Means) in order to generate multiple acoustic dictionaries used to encode sounds as words. Experiments were carried out using a dataset from the Detection and Classification of Acoustic Scenes and Events 2016 competition (DCASE 2016), and the BBC Complete Sound Effects Library. Some of the research questions we aim were: is it possible to generate a meaningful acoustic dictionary based on this type of data? Do the clustered sounds share some human recognizable acoustic properties? Do extracted topics contain some information that will be useful in an acoustic scene classification task? Are the words in each of the extracted topics a useful description for a given scene?. Our results showed that besides the fact that topic extraction did not surpass the state of the art results in the task of detecting the acoustic scene, promising classification results can be obtained. Deciding about the interpretability of a topic resulted in a non-trivial task that requires tailor made experiments. Finally, using t-SNE as the main technique of dimensionality reduction allowed us to obtain acoustic clusters with both temporal and timbric recognizable properties. Fil: Defagot, Adrían Gabriel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
En este trabajo se propone la utilización del modelo de extracción de tópicos Latent Dirichlet Allocation (LDA) para el reconocimiento de escenas acústicas a partir de múltiples grabaciones realizadas en diferentes ambientes. A partir de atributos característicos de la señal de audio como sus MFCCs, experimentamos sobre la combinación de técnicas de segmentación, reducción de dimensionalidad (PCA y t-SNE), técnicas de clustering (PAM, K-Means) para construir diferentes diccionarios acústicos que permitiesen transformar sonidos en palabras. La experimentación fue llevada a cabo utilizando el dataset proveniente de la competencia de detección de escenas ac´usticas TUT Acoustic Scenes 2016 y la base de efectos de sonidos BBC Complete Sound Effects Library en donde nos preguntamos si ¿será posible generar un diccionario acústico útil a partir de los datos?, ¿al agrupar sonidos en una misma palabra acústica, es posible que se compartan características auditivas reconocibles por humanos?, ¿los tópicos obtenidos contienen suficiente información como para realizar una tarea de clasificación de escenas?, y ¿los tópicos obtenidos componen un conjunto intuitivo e interpretable de sonidos que caractericen una situación?. Los resultados muestran que si bien la extracción de tópicos no superó el estado del arte en la tarea de detección de escenas acústicas, obtuvimos resultados prometedores y consideramos que decidir sobre la interpretabilidad de dichos tópicos resulta una tarea no trivial en donde serán necesarios experimentos a medida. Finalmente, la utilización de t-SNE como herramienta principal para proyectar características del espacio de alta dimensión, permitió luego agrupaciones acústicas con propiedades rítmicas y tímbricas reconocibles. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000627_Defagot |
url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000627_Defagot |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1844618757872287744 |
score |
13.070432 |