Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes

Autores
Ernst, Erik
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Ferrer, Luciana
Pepino, Leonardo
Descripción
En los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso.
In recent years, the rapid advancement of machine learning has transformed data processing, enabling pre-trained models to capture complex semantic representations. However, this progress has been accompanied by increasing computational costs, a centralization of resources within a few institutions, and a predominant focus on maximizing results, often at the expense of understanding the rationale behind many architectural and training design decisions. In this thesis, we explore efficient transfer learning techniques applied to pre-trained speech models for Speaker Identification (SID). Within this framework, our primary objective was to gain a deeper understanding of the impact of key configurations in model design and training. We conducted extensive experimentation with multiple architectures and hyperparameters to identify the optimal downstream model, using WavLM Base+ as the upstream model. In this process, we analyzed factors such as learning rate, different pooling mechanisms, and normalization techniques. Among our most significant findings, we demonstrated that the incorporation of attention mechanisms in temporal and layer-wise pooling can provide substantial benefits, achieving state-of-the-art results with a significantly smaller number of parameters. Furthermore, we investigated full fine-tuning techniques and Parameter-Efficient Fine-Tuning (PEFT) approaches, specifically LoRA, and explored the benefits it can offer.
Fil: Ernst, Erik. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
IDENTIFICACION DE HABLANTES
MODELOS PRE-ENTRENADOS DE HABLA
PROCESAMIENTO DEL HABLA
FINE-TUNING
TRANSFER LEARNING
TRANSFORMERS
SPEAKER IDENTIFICATION
PRE-TRAINED SPEECH MODELS
SPEECH PROCESSING
FINE-TUNING
TRANSFER LEARNING
TRANSFORMERS
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000839_Ernst

id BDUBAFCEN_7aa377a0584ebe7a2f01ae2e6f09099e
oai_identifier_str seminario:seminario_nCOM000839_Ernst
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantesEfficient transfer learning for pre-trained speech models in speaker identificationErnst, ErikIDENTIFICACION DE HABLANTESMODELOS PRE-ENTRENADOS DE HABLAPROCESAMIENTO DEL HABLAFINE-TUNINGTRANSFER LEARNINGTRANSFORMERSSPEAKER IDENTIFICATIONPRE-TRAINED SPEECH MODELSSPEECH PROCESSINGFINE-TUNINGTRANSFER LEARNINGTRANSFORMERSEn los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso.In recent years, the rapid advancement of machine learning has transformed data processing, enabling pre-trained models to capture complex semantic representations. However, this progress has been accompanied by increasing computational costs, a centralization of resources within a few institutions, and a predominant focus on maximizing results, often at the expense of understanding the rationale behind many architectural and training design decisions. In this thesis, we explore efficient transfer learning techniques applied to pre-trained speech models for Speaker Identification (SID). Within this framework, our primary objective was to gain a deeper understanding of the impact of key configurations in model design and training. We conducted extensive experimentation with multiple architectures and hyperparameters to identify the optimal downstream model, using WavLM Base+ as the upstream model. In this process, we analyzed factors such as learning rate, different pooling mechanisms, and normalization techniques. Among our most significant findings, we demonstrated that the incorporation of attention mechanisms in temporal and layer-wise pooling can provide substantial benefits, achieving state-of-the-art results with a significantly smaller number of parameters. Furthermore, we investigated full fine-tuning techniques and Parameter-Efficient Fine-Tuning (PEFT) approaches, specifically LoRA, and explored the benefits it can offer.Fil: Ernst, Erik. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesFerrer, LucianaPepino, Leonardo2025-04-09info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernstspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-03-26T11:22:37Zseminario:seminario_nCOM000839_ErnstInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-03-26 11:22:38.973Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
Efficient transfer learning for pre-trained speech models in speaker identification
title Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
spellingShingle Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
Ernst, Erik
IDENTIFICACION DE HABLANTES
MODELOS PRE-ENTRENADOS DE HABLA
PROCESAMIENTO DEL HABLA
FINE-TUNING
TRANSFER LEARNING
TRANSFORMERS
SPEAKER IDENTIFICATION
PRE-TRAINED SPEECH MODELS
SPEECH PROCESSING
FINE-TUNING
TRANSFER LEARNING
TRANSFORMERS
title_short Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
title_full Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
title_fullStr Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
title_full_unstemmed Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
title_sort Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
dc.creator.none.fl_str_mv Ernst, Erik
author Ernst, Erik
author_facet Ernst, Erik
author_role author
dc.contributor.none.fl_str_mv Ferrer, Luciana
Pepino, Leonardo
dc.subject.none.fl_str_mv IDENTIFICACION DE HABLANTES
MODELOS PRE-ENTRENADOS DE HABLA
PROCESAMIENTO DEL HABLA
FINE-TUNING
TRANSFER LEARNING
TRANSFORMERS
SPEAKER IDENTIFICATION
PRE-TRAINED SPEECH MODELS
SPEECH PROCESSING
FINE-TUNING
TRANSFER LEARNING
TRANSFORMERS
topic IDENTIFICACION DE HABLANTES
MODELOS PRE-ENTRENADOS DE HABLA
PROCESAMIENTO DEL HABLA
FINE-TUNING
TRANSFER LEARNING
TRANSFORMERS
SPEAKER IDENTIFICATION
PRE-TRAINED SPEECH MODELS
SPEECH PROCESSING
FINE-TUNING
TRANSFER LEARNING
TRANSFORMERS
dc.description.none.fl_txt_mv En los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso.
In recent years, the rapid advancement of machine learning has transformed data processing, enabling pre-trained models to capture complex semantic representations. However, this progress has been accompanied by increasing computational costs, a centralization of resources within a few institutions, and a predominant focus on maximizing results, often at the expense of understanding the rationale behind many architectural and training design decisions. In this thesis, we explore efficient transfer learning techniques applied to pre-trained speech models for Speaker Identification (SID). Within this framework, our primary objective was to gain a deeper understanding of the impact of key configurations in model design and training. We conducted extensive experimentation with multiple architectures and hyperparameters to identify the optimal downstream model, using WavLM Base+ as the upstream model. In this process, we analyzed factors such as learning rate, different pooling mechanisms, and normalization techniques. Among our most significant findings, we demonstrated that the incorporation of attention mechanisms in temporal and layer-wise pooling can provide substantial benefits, achieving state-of-the-art results with a significantly smaller number of parameters. Furthermore, we investigated full fine-tuning techniques and Parameter-Efficient Fine-Tuning (PEFT) approaches, specifically LoRA, and explored the benefits it can offer.
Fil: Ernst, Erik. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description En los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso.
publishDate 2025
dc.date.none.fl_str_mv 2025-04-09
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernst
url https://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernst
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1860737128869134336
score 13.332987