Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
- Autores
- Ernst, Erik
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Ferrer, Luciana
Pepino, Leonardo - Descripción
- En los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso.
In recent years, the rapid advancement of machine learning has transformed data processing, enabling pre-trained models to capture complex semantic representations. However, this progress has been accompanied by increasing computational costs, a centralization of resources within a few institutions, and a predominant focus on maximizing results, often at the expense of understanding the rationale behind many architectural and training design decisions. In this thesis, we explore efficient transfer learning techniques applied to pre-trained speech models for Speaker Identification (SID). Within this framework, our primary objective was to gain a deeper understanding of the impact of key configurations in model design and training. We conducted extensive experimentation with multiple architectures and hyperparameters to identify the optimal downstream model, using WavLM Base+ as the upstream model. In this process, we analyzed factors such as learning rate, different pooling mechanisms, and normalization techniques. Among our most significant findings, we demonstrated that the incorporation of attention mechanisms in temporal and layer-wise pooling can provide substantial benefits, achieving state-of-the-art results with a significantly smaller number of parameters. Furthermore, we investigated full fine-tuning techniques and Parameter-Efficient Fine-Tuning (PEFT) approaches, specifically LoRA, and explored the benefits it can offer.
Fil: Ernst, Erik. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
IDENTIFICACION DE HABLANTES
MODELOS PRE-ENTRENADOS DE HABLA
PROCESAMIENTO DEL HABLA
FINE-TUNING
TRANSFER LEARNING
TRANSFORMERS
SPEAKER IDENTIFICATION
PRE-TRAINED SPEECH MODELS
SPEECH PROCESSING
FINE-TUNING
TRANSFER LEARNING
TRANSFORMERS - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
.jpg)
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000839_Ernst
Ver los metadatos del registro completo
| id |
BDUBAFCEN_7aa377a0584ebe7a2f01ae2e6f09099e |
|---|---|
| oai_identifier_str |
seminario:seminario_nCOM000839_Ernst |
| network_acronym_str |
BDUBAFCEN |
| repository_id_str |
1896 |
| network_name_str |
Biblioteca Digital (UBA-FCEN) |
| spelling |
Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantesEfficient transfer learning for pre-trained speech models in speaker identificationErnst, ErikIDENTIFICACION DE HABLANTESMODELOS PRE-ENTRENADOS DE HABLAPROCESAMIENTO DEL HABLAFINE-TUNINGTRANSFER LEARNINGTRANSFORMERSSPEAKER IDENTIFICATIONPRE-TRAINED SPEECH MODELSSPEECH PROCESSINGFINE-TUNINGTRANSFER LEARNINGTRANSFORMERSEn los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso.In recent years, the rapid advancement of machine learning has transformed data processing, enabling pre-trained models to capture complex semantic representations. However, this progress has been accompanied by increasing computational costs, a centralization of resources within a few institutions, and a predominant focus on maximizing results, often at the expense of understanding the rationale behind many architectural and training design decisions. In this thesis, we explore efficient transfer learning techniques applied to pre-trained speech models for Speaker Identification (SID). Within this framework, our primary objective was to gain a deeper understanding of the impact of key configurations in model design and training. We conducted extensive experimentation with multiple architectures and hyperparameters to identify the optimal downstream model, using WavLM Base+ as the upstream model. In this process, we analyzed factors such as learning rate, different pooling mechanisms, and normalization techniques. Among our most significant findings, we demonstrated that the incorporation of attention mechanisms in temporal and layer-wise pooling can provide substantial benefits, achieving state-of-the-art results with a significantly smaller number of parameters. Furthermore, we investigated full fine-tuning techniques and Parameter-Efficient Fine-Tuning (PEFT) approaches, specifically LoRA, and explored the benefits it can offer.Fil: Ernst, Erik. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesFerrer, LucianaPepino, Leonardo2025-04-09info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernstspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-03-26T11:22:37Zseminario:seminario_nCOM000839_ErnstInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-03-26 11:22:38.973Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
| dc.title.none.fl_str_mv |
Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes Efficient transfer learning for pre-trained speech models in speaker identification |
| title |
Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes |
| spellingShingle |
Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes Ernst, Erik IDENTIFICACION DE HABLANTES MODELOS PRE-ENTRENADOS DE HABLA PROCESAMIENTO DEL HABLA FINE-TUNING TRANSFER LEARNING TRANSFORMERS SPEAKER IDENTIFICATION PRE-TRAINED SPEECH MODELS SPEECH PROCESSING FINE-TUNING TRANSFER LEARNING TRANSFORMERS |
| title_short |
Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes |
| title_full |
Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes |
| title_fullStr |
Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes |
| title_full_unstemmed |
Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes |
| title_sort |
Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes |
| dc.creator.none.fl_str_mv |
Ernst, Erik |
| author |
Ernst, Erik |
| author_facet |
Ernst, Erik |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Ferrer, Luciana Pepino, Leonardo |
| dc.subject.none.fl_str_mv |
IDENTIFICACION DE HABLANTES MODELOS PRE-ENTRENADOS DE HABLA PROCESAMIENTO DEL HABLA FINE-TUNING TRANSFER LEARNING TRANSFORMERS SPEAKER IDENTIFICATION PRE-TRAINED SPEECH MODELS SPEECH PROCESSING FINE-TUNING TRANSFER LEARNING TRANSFORMERS |
| topic |
IDENTIFICACION DE HABLANTES MODELOS PRE-ENTRENADOS DE HABLA PROCESAMIENTO DEL HABLA FINE-TUNING TRANSFER LEARNING TRANSFORMERS SPEAKER IDENTIFICATION PRE-TRAINED SPEECH MODELS SPEECH PROCESSING FINE-TUNING TRANSFER LEARNING TRANSFORMERS |
| dc.description.none.fl_txt_mv |
En los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso. In recent years, the rapid advancement of machine learning has transformed data processing, enabling pre-trained models to capture complex semantic representations. However, this progress has been accompanied by increasing computational costs, a centralization of resources within a few institutions, and a predominant focus on maximizing results, often at the expense of understanding the rationale behind many architectural and training design decisions. In this thesis, we explore efficient transfer learning techniques applied to pre-trained speech models for Speaker Identification (SID). Within this framework, our primary objective was to gain a deeper understanding of the impact of key configurations in model design and training. We conducted extensive experimentation with multiple architectures and hyperparameters to identify the optimal downstream model, using WavLM Base+ as the upstream model. In this process, we analyzed factors such as learning rate, different pooling mechanisms, and normalization techniques. Among our most significant findings, we demonstrated that the incorporation of attention mechanisms in temporal and layer-wise pooling can provide substantial benefits, achieving state-of-the-art results with a significantly smaller number of parameters. Furthermore, we investigated full fine-tuning techniques and Parameter-Efficient Fine-Tuning (PEFT) approaches, specifically LoRA, and explored the benefits it can offer. Fil: Ernst, Erik. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
| description |
En los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-04-09 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
| format |
bachelorThesis |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernst |
| url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernst |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
| reponame_str |
Biblioteca Digital (UBA-FCEN) |
| collection |
Biblioteca Digital (UBA-FCEN) |
| instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| instacron_str |
UBA-FCEN |
| institution |
UBA-FCEN |
| repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
| _version_ |
1860737128869134336 |
| score |
13.332987 |