Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes

Autores: Ernst, Erik
Año de publicación: 2025
Idioma: español castellano
Tipo de recurso: tesis de grado
Estado: versión publicada
Colaborador/a o director/a de tesis: Ferrer, Luciana
Pepino, Leonardo
Descripción: En los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso.
In recent years, the rapid advancement of machine learning has transformed data processing, enabling pre-trained models to capture complex semantic representations. However, this progress has been accompanied by increasing computational costs, a centralization of resources within a few institutions, and a predominant focus on maximizing results, often at the expense of understanding the rationale behind many architectural and training design decisions. In this thesis, we explore efficient transfer learning techniques applied to pre-trained speech models for Speaker Identification (SID). Within this framework, our primary objective was to gain a deeper understanding of the impact of key configurations in model design and training. We conducted extensive experimentation with multiple architectures and hyperparameters to identify the optimal downstream model, using WavLM Base+ as the upstream model. In this process, we analyzed factors such as learning rate, different pooling mechanisms, and normalization techniques. Among our most significant findings, we demonstrated that the incorporation of attention mechanisms in temporal and layer-wise pooling can provide substantial benefits, achieving state-of-the-art results with a significantly smaller number of parameters. Furthermore, we investigated full fine-tuning techniques and Parameter-Efficient Fine-Tuning (PEFT) approaches, specifically LoRA, and explored the benefits it can offer.
Fil: Ernst, Erik. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia: IDENTIFICACION DE HABLANTES
MODELOS PRE-ENTRENADOS DE HABLA
PROCESAMIENTO DEL HABLA
FINE-TUNING
TRANSFER LEARNING
TRANSFORMERS
SPEAKER IDENTIFICATION
PRE-TRAINED SPEECH MODELS
SPEECH PROCESSING
FINE-TUNING
TRANSFER LEARNING
TRANSFORMERS
Nivel de accesibilidad: acceso abierto
Condiciones de uso: https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Institución: Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador: seminario:seminario_nCOM000839_Ernst

Acceder

id	BDUBAFCEN_7aa377a0584ebe7a2f01ae2e6f09099e
oai_identifier_str	seminario:seminario_nCOM000839_Ernst
network_acronym_str	BDUBAFCEN
repository_id_str	1896
network_name_str	Biblioteca Digital (UBA-FCEN)
spelling	Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantesEfficient transfer learning for pre-trained speech models in speaker identificationErnst, ErikIDENTIFICACION DE HABLANTESMODELOS PRE-ENTRENADOS DE HABLAPROCESAMIENTO DEL HABLAFINE-TUNINGTRANSFER LEARNINGTRANSFORMERSSPEAKER IDENTIFICATIONPRE-TRAINED SPEECH MODELSSPEECH PROCESSINGFINE-TUNINGTRANSFER LEARNINGTRANSFORMERSEn los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso.In recent years, the rapid advancement of machine learning has transformed data processing, enabling pre-trained models to capture complex semantic representations. However, this progress has been accompanied by increasing computational costs, a centralization of resources within a few institutions, and a predominant focus on maximizing results, often at the expense of understanding the rationale behind many architectural and training design decisions. In this thesis, we explore efficient transfer learning techniques applied to pre-trained speech models for Speaker Identification (SID). Within this framework, our primary objective was to gain a deeper understanding of the impact of key configurations in model design and training. We conducted extensive experimentation with multiple architectures and hyperparameters to identify the optimal downstream model, using WavLM Base+ as the upstream model. In this process, we analyzed factors such as learning rate, different pooling mechanisms, and normalization techniques. Among our most significant findings, we demonstrated that the incorporation of attention mechanisms in temporal and layer-wise pooling can provide substantial benefits, achieving state-of-the-art results with a significantly smaller number of parameters. Furthermore, we investigated full fine-tuning techniques and Parameter-Efficient Fine-Tuning (PEFT) approaches, specifically LoRA, and explored the benefits it can offer.Fil: Ernst, Erik. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesFerrer, LucianaPepino, Leonardo2025-04-09info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernstspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-05-07T11:48:31Zseminario:seminario_nCOM000839_ErnstInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-05-07 11:48:34.449Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv	Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes Efficient transfer learning for pre-trained speech models in speaker identification
title	Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
spellingShingle	Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes Ernst, Erik IDENTIFICACION DE HABLANTES MODELOS PRE-ENTRENADOS DE HABLA PROCESAMIENTO DEL HABLA FINE-TUNING TRANSFER LEARNING TRANSFORMERS SPEAKER IDENTIFICATION PRE-TRAINED SPEECH MODELS SPEECH PROCESSING FINE-TUNING TRANSFER LEARNING TRANSFORMERS
title_short	Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
title_full	Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
title_fullStr	Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
title_full_unstemmed	Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
title_sort	Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes
dc.creator.none.fl_str_mv	Ernst, Erik
author	Ernst, Erik
author_facet	Ernst, Erik
author_role	author
dc.contributor.none.fl_str_mv	Ferrer, Luciana Pepino, Leonardo
dc.subject.none.fl_str_mv	IDENTIFICACION DE HABLANTES MODELOS PRE-ENTRENADOS DE HABLA PROCESAMIENTO DEL HABLA FINE-TUNING TRANSFER LEARNING TRANSFORMERS SPEAKER IDENTIFICATION PRE-TRAINED SPEECH MODELS SPEECH PROCESSING FINE-TUNING TRANSFER LEARNING TRANSFORMERS
topic	IDENTIFICACION DE HABLANTES MODELOS PRE-ENTRENADOS DE HABLA PROCESAMIENTO DEL HABLA FINE-TUNING TRANSFER LEARNING TRANSFORMERS SPEAKER IDENTIFICATION PRE-TRAINED SPEECH MODELS SPEECH PROCESSING FINE-TUNING TRANSFER LEARNING TRANSFORMERS
dc.description.none.fl_txt_mv	En los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso. In recent years, the rapid advancement of machine learning has transformed data processing, enabling pre-trained models to capture complex semantic representations. However, this progress has been accompanied by increasing computational costs, a centralization of resources within a few institutions, and a predominant focus on maximizing results, often at the expense of understanding the rationale behind many architectural and training design decisions. In this thesis, we explore efficient transfer learning techniques applied to pre-trained speech models for Speaker Identification (SID). Within this framework, our primary objective was to gain a deeper understanding of the impact of key configurations in model design and training. We conducted extensive experimentation with multiple architectures and hyperparameters to identify the optimal downstream model, using WavLM Base+ as the upstream model. In this process, we analyzed factors such as learning rate, different pooling mechanisms, and normalization techniques. Among our most significant findings, we demonstrated that the incorporation of attention mechanisms in temporal and layer-wise pooling can provide substantial benefits, achieving state-of-the-art results with a significantly smaller number of parameters. Furthermore, we investigated full fine-tuning techniques and Parameter-Efficient Fine-Tuning (PEFT) approaches, specifically LoRA, and explored the benefits it can offer. Fil: Ernst, Erik. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description	En los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso.
publishDate	2025
dc.date.none.fl_str_mv	2025-04-09
dc.type.none.fl_str_mv	info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado
format	bachelorThesis
status_str	publishedVersion
dc.identifier.none.fl_str_mv	https://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernst
url	https://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernst
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv	openAccess
rights_invalid_str_mv	https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv	reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN
reponame_str	Biblioteca Digital (UBA-FCEN)
collection	Biblioteca Digital (UBA-FCEN)
instname_str	Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str	UBA-FCEN
institution	UBA-FCEN
repository.name.fl_str_mv	Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv	ana@bl.fcen.uba.ar
_version_	1864545671562919936
score	12.637756

Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes

Publicaciones similares