Ajuste de modelos de difusión para la generación de audio

Autores
Fiorino, Santiago
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Riera, Pablo Ernesto
Descripción
La música, una de las formas de expresión artística más antiguas de la humanidad, ha evolucionado junto con los avances tecnológicos, desde los instrumentos de percusión primitivos hasta las herramientas de síntesis de audio digital modernas. Hoy en día, la inteligencia artificial desempeña un papel central en la generación de música, utilizando las últimas arquitecturas de transformers y técnicas de difusión, siendo así capaz de generar canciones completas a partir de indicaciones en lenguaje natural. A pesar de los recientes avances en modelos privados, como los desarrollados por Udio y Suno AI, que demuestran gran potencial, su naturaleza cerrada limita la investigación científica. En junio de 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión de código abierto, democratizando la investigación en este campo. Aunque SAO tiene gran calidad en la generación de efectos de sonido, sus capacidades musicales están limitadas debido a los pocos datos de entrenamiento musicales con licencias abiertas disponibles. Nuestra investigación se centra en mejorar las capacidades de generación musical de SAO mediante el re-entrenamiento, utilizando un conjunto de datos especializado. Abordamos limitaciones específicas, incluyendo la incapacidad del modelo para generar ciertos instrumentos, dificultades para adherirse a elementos musicales especificados e inconsistencias en parámetros técnicos como el tempo y la tonalidad. El trabajo incluye la creación de un pipeline personalizado para la generación del conjuntos de datos, sintetizando audio a partir de archivos MIDI, enriqueciendo metadatos mediante APIs como Spotify y LastFM, y generando indicaciones en lenguaje natural con modelos de lenguaje (LLMs). Utilizando este pipeline, se generó un conjunto de datos de 9 horas de música que abarca diversos géneros, tempos y tonalidades. Los resultados demostraron mejoras significativas en el modelo re-entrenado (“Instrumental Finetune”) en comparación con el SAO original, particularmente en calidad de sonido, precisión en la reproducción de instrumentos, adherencia a géneros y tempos, alcanzando un 95,3 % de precisión frente al 77,6 % del modelo original. La precisión del tono y la escala siguen siendo un desafío, pero las métricas basadas en representaciones, como KL-Passt y CLAP Score, indicaron que nuestro modelo ajustado iguala o supera el rendimiento tanto de SAO como del modelo comercial MusicGen, manteniendo capacidades de generalización a pesar de nuestra optimización específica del dominio.
Music, one of humanity’s oldest forms of artistic expression, has evolved alongside technological advancements, from primitive percussion instruments to modern digital audio synthesis tools. Today, artificial intelligence plays a pivotal role in music generation, leveraging state-of-the-art architectures like transformers and diffusion models capable of generating complete songs from natural language prompts. Despite recent advances in proprietary models, such as those developed by Udio and Suno AI, which demonstrate great potential, their closed nature limits scientific research. In June 2024, Stability AI released Stable Audio Open (SAO), an open-source diffusion-based audio synthesis model, democratizing research in this field. While SAO excels in sound effect generation, its musical capabilities are constrained by limited open-license training data. Our research focuses on enhancing SAO’s musical generation capabilities through fine-tuning on a specialized dataset. We address specific limitations including the model’s inability to generate certain instruments, difficulties in adhering to specified musical elements, and inconsistencies in following technical parameters such as tempo and tonality. The research involves creating a custom dataset-creation pipeline by synthesizing audio from MIDI files, enriching metadata using APIs like Spotify and LastFM, and generating natural language prompts via large language models (LLMs). Using our pipeline, a 9-hour music dataset was generated, spanning various musical genres, tempos and tonalities. Results demonstrate significant improvements in the fine-tuned model (“Instrumental Finetune”) compared to the original SAO, particularly in sound quality, instrument reproduction accuracy, genre adherence, and tempo adherence, where our model achieved 95.3 % accuracy, compared to 77.6 % in the original model. Tone and scale accuracy remained challenging, and embedding-based metrics such as KL-Passt and CLAP Score indicate that our fine-tuned model matches or exceeds the performance of both SAO and the commercial model MusicGen, maintaining generalization capabilities despite our domain-specific optimization.
Fil: Fiorino, Santiago. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
MUSICA
SINTESIS
DIFUSION
TRANSFORMERS
MUSIC
SYNTHESIS
DIFFUSION
TRANSFORMERS
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000844_Fiorino

id BDUBAFCEN_4985a179a5f7146c76df553f764c8864
oai_identifier_str seminario:seminario_nCOM000844_Fiorino
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Ajuste de modelos de difusión para la generación de audioFine-tuning diffusion models for audio generationFiorino, SantiagoMUSICASINTESISDIFUSIONTRANSFORMERSMUSICSYNTHESISDIFFUSIONTRANSFORMERSLa música, una de las formas de expresión artística más antiguas de la humanidad, ha evolucionado junto con los avances tecnológicos, desde los instrumentos de percusión primitivos hasta las herramientas de síntesis de audio digital modernas. Hoy en día, la inteligencia artificial desempeña un papel central en la generación de música, utilizando las últimas arquitecturas de transformers y técnicas de difusión, siendo así capaz de generar canciones completas a partir de indicaciones en lenguaje natural. A pesar de los recientes avances en modelos privados, como los desarrollados por Udio y Suno AI, que demuestran gran potencial, su naturaleza cerrada limita la investigación científica. En junio de 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión de código abierto, democratizando la investigación en este campo. Aunque SAO tiene gran calidad en la generación de efectos de sonido, sus capacidades musicales están limitadas debido a los pocos datos de entrenamiento musicales con licencias abiertas disponibles. Nuestra investigación se centra en mejorar las capacidades de generación musical de SAO mediante el re-entrenamiento, utilizando un conjunto de datos especializado. Abordamos limitaciones específicas, incluyendo la incapacidad del modelo para generar ciertos instrumentos, dificultades para adherirse a elementos musicales especificados e inconsistencias en parámetros técnicos como el tempo y la tonalidad. El trabajo incluye la creación de un pipeline personalizado para la generación del conjuntos de datos, sintetizando audio a partir de archivos MIDI, enriqueciendo metadatos mediante APIs como Spotify y LastFM, y generando indicaciones en lenguaje natural con modelos de lenguaje (LLMs). Utilizando este pipeline, se generó un conjunto de datos de 9 horas de música que abarca diversos géneros, tempos y tonalidades. Los resultados demostraron mejoras significativas en el modelo re-entrenado (“Instrumental Finetune”) en comparación con el SAO original, particularmente en calidad de sonido, precisión en la reproducción de instrumentos, adherencia a géneros y tempos, alcanzando un 95,3 % de precisión frente al 77,6 % del modelo original. La precisión del tono y la escala siguen siendo un desafío, pero las métricas basadas en representaciones, como KL-Passt y CLAP Score, indicaron que nuestro modelo ajustado iguala o supera el rendimiento tanto de SAO como del modelo comercial MusicGen, manteniendo capacidades de generalización a pesar de nuestra optimización específica del dominio.Music, one of humanity’s oldest forms of artistic expression, has evolved alongside technological advancements, from primitive percussion instruments to modern digital audio synthesis tools. Today, artificial intelligence plays a pivotal role in music generation, leveraging state-of-the-art architectures like transformers and diffusion models capable of generating complete songs from natural language prompts. Despite recent advances in proprietary models, such as those developed by Udio and Suno AI, which demonstrate great potential, their closed nature limits scientific research. In June 2024, Stability AI released Stable Audio Open (SAO), an open-source diffusion-based audio synthesis model, democratizing research in this field. While SAO excels in sound effect generation, its musical capabilities are constrained by limited open-license training data. Our research focuses on enhancing SAO’s musical generation capabilities through fine-tuning on a specialized dataset. We address specific limitations including the model’s inability to generate certain instruments, difficulties in adhering to specified musical elements, and inconsistencies in following technical parameters such as tempo and tonality. The research involves creating a custom dataset-creation pipeline by synthesizing audio from MIDI files, enriching metadata using APIs like Spotify and LastFM, and generating natural language prompts via large language models (LLMs). Using our pipeline, a 9-hour music dataset was generated, spanning various musical genres, tempos and tonalities. Results demonstrate significant improvements in the fine-tuned model (“Instrumental Finetune”) compared to the original SAO, particularly in sound quality, instrument reproduction accuracy, genre adherence, and tempo adherence, where our model achieved 95.3 % accuracy, compared to 77.6 % in the original model. Tone and scale accuracy remained challenging, and embedding-based metrics such as KL-Passt and CLAP Score indicate that our fine-tuned model matches or exceeds the performance of both SAO and the commercial model MusicGen, maintaining generalization capabilities despite our domain-specific optimization.Fil: Fiorino, Santiago. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesRiera, Pablo Ernesto2025-05-12info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000844_Fiorinospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-02-12T12:16:58Zseminario:seminario_nCOM000844_FiorinoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-02-12 12:16:59.482Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Ajuste de modelos de difusión para la generación de audio
Fine-tuning diffusion models for audio generation
title Ajuste de modelos de difusión para la generación de audio
spellingShingle Ajuste de modelos de difusión para la generación de audio
Fiorino, Santiago
MUSICA
SINTESIS
DIFUSION
TRANSFORMERS
MUSIC
SYNTHESIS
DIFFUSION
TRANSFORMERS
title_short Ajuste de modelos de difusión para la generación de audio
title_full Ajuste de modelos de difusión para la generación de audio
title_fullStr Ajuste de modelos de difusión para la generación de audio
title_full_unstemmed Ajuste de modelos de difusión para la generación de audio
title_sort Ajuste de modelos de difusión para la generación de audio
dc.creator.none.fl_str_mv Fiorino, Santiago
author Fiorino, Santiago
author_facet Fiorino, Santiago
author_role author
dc.contributor.none.fl_str_mv Riera, Pablo Ernesto
dc.subject.none.fl_str_mv MUSICA
SINTESIS
DIFUSION
TRANSFORMERS
MUSIC
SYNTHESIS
DIFFUSION
TRANSFORMERS
topic MUSICA
SINTESIS
DIFUSION
TRANSFORMERS
MUSIC
SYNTHESIS
DIFFUSION
TRANSFORMERS
dc.description.none.fl_txt_mv La música, una de las formas de expresión artística más antiguas de la humanidad, ha evolucionado junto con los avances tecnológicos, desde los instrumentos de percusión primitivos hasta las herramientas de síntesis de audio digital modernas. Hoy en día, la inteligencia artificial desempeña un papel central en la generación de música, utilizando las últimas arquitecturas de transformers y técnicas de difusión, siendo así capaz de generar canciones completas a partir de indicaciones en lenguaje natural. A pesar de los recientes avances en modelos privados, como los desarrollados por Udio y Suno AI, que demuestran gran potencial, su naturaleza cerrada limita la investigación científica. En junio de 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión de código abierto, democratizando la investigación en este campo. Aunque SAO tiene gran calidad en la generación de efectos de sonido, sus capacidades musicales están limitadas debido a los pocos datos de entrenamiento musicales con licencias abiertas disponibles. Nuestra investigación se centra en mejorar las capacidades de generación musical de SAO mediante el re-entrenamiento, utilizando un conjunto de datos especializado. Abordamos limitaciones específicas, incluyendo la incapacidad del modelo para generar ciertos instrumentos, dificultades para adherirse a elementos musicales especificados e inconsistencias en parámetros técnicos como el tempo y la tonalidad. El trabajo incluye la creación de un pipeline personalizado para la generación del conjuntos de datos, sintetizando audio a partir de archivos MIDI, enriqueciendo metadatos mediante APIs como Spotify y LastFM, y generando indicaciones en lenguaje natural con modelos de lenguaje (LLMs). Utilizando este pipeline, se generó un conjunto de datos de 9 horas de música que abarca diversos géneros, tempos y tonalidades. Los resultados demostraron mejoras significativas en el modelo re-entrenado (“Instrumental Finetune”) en comparación con el SAO original, particularmente en calidad de sonido, precisión en la reproducción de instrumentos, adherencia a géneros y tempos, alcanzando un 95,3 % de precisión frente al 77,6 % del modelo original. La precisión del tono y la escala siguen siendo un desafío, pero las métricas basadas en representaciones, como KL-Passt y CLAP Score, indicaron que nuestro modelo ajustado iguala o supera el rendimiento tanto de SAO como del modelo comercial MusicGen, manteniendo capacidades de generalización a pesar de nuestra optimización específica del dominio.
Music, one of humanity’s oldest forms of artistic expression, has evolved alongside technological advancements, from primitive percussion instruments to modern digital audio synthesis tools. Today, artificial intelligence plays a pivotal role in music generation, leveraging state-of-the-art architectures like transformers and diffusion models capable of generating complete songs from natural language prompts. Despite recent advances in proprietary models, such as those developed by Udio and Suno AI, which demonstrate great potential, their closed nature limits scientific research. In June 2024, Stability AI released Stable Audio Open (SAO), an open-source diffusion-based audio synthesis model, democratizing research in this field. While SAO excels in sound effect generation, its musical capabilities are constrained by limited open-license training data. Our research focuses on enhancing SAO’s musical generation capabilities through fine-tuning on a specialized dataset. We address specific limitations including the model’s inability to generate certain instruments, difficulties in adhering to specified musical elements, and inconsistencies in following technical parameters such as tempo and tonality. The research involves creating a custom dataset-creation pipeline by synthesizing audio from MIDI files, enriching metadata using APIs like Spotify and LastFM, and generating natural language prompts via large language models (LLMs). Using our pipeline, a 9-hour music dataset was generated, spanning various musical genres, tempos and tonalities. Results demonstrate significant improvements in the fine-tuned model (“Instrumental Finetune”) compared to the original SAO, particularly in sound quality, instrument reproduction accuracy, genre adherence, and tempo adherence, where our model achieved 95.3 % accuracy, compared to 77.6 % in the original model. Tone and scale accuracy remained challenging, and embedding-based metrics such as KL-Passt and CLAP Score indicate that our fine-tuned model matches or exceeds the performance of both SAO and the commercial model MusicGen, maintaining generalization capabilities despite our domain-specific optimization.
Fil: Fiorino, Santiago. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description La música, una de las formas de expresión artística más antiguas de la humanidad, ha evolucionado junto con los avances tecnológicos, desde los instrumentos de percusión primitivos hasta las herramientas de síntesis de audio digital modernas. Hoy en día, la inteligencia artificial desempeña un papel central en la generación de música, utilizando las últimas arquitecturas de transformers y técnicas de difusión, siendo así capaz de generar canciones completas a partir de indicaciones en lenguaje natural. A pesar de los recientes avances en modelos privados, como los desarrollados por Udio y Suno AI, que demuestran gran potencial, su naturaleza cerrada limita la investigación científica. En junio de 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión de código abierto, democratizando la investigación en este campo. Aunque SAO tiene gran calidad en la generación de efectos de sonido, sus capacidades musicales están limitadas debido a los pocos datos de entrenamiento musicales con licencias abiertas disponibles. Nuestra investigación se centra en mejorar las capacidades de generación musical de SAO mediante el re-entrenamiento, utilizando un conjunto de datos especializado. Abordamos limitaciones específicas, incluyendo la incapacidad del modelo para generar ciertos instrumentos, dificultades para adherirse a elementos musicales especificados e inconsistencias en parámetros técnicos como el tempo y la tonalidad. El trabajo incluye la creación de un pipeline personalizado para la generación del conjuntos de datos, sintetizando audio a partir de archivos MIDI, enriqueciendo metadatos mediante APIs como Spotify y LastFM, y generando indicaciones en lenguaje natural con modelos de lenguaje (LLMs). Utilizando este pipeline, se generó un conjunto de datos de 9 horas de música que abarca diversos géneros, tempos y tonalidades. Los resultados demostraron mejoras significativas en el modelo re-entrenado (“Instrumental Finetune”) en comparación con el SAO original, particularmente en calidad de sonido, precisión en la reproducción de instrumentos, adherencia a géneros y tempos, alcanzando un 95,3 % de precisión frente al 77,6 % del modelo original. La precisión del tono y la escala siguen siendo un desafío, pero las métricas basadas en representaciones, como KL-Passt y CLAP Score, indicaron que nuestro modelo ajustado iguala o supera el rendimiento tanto de SAO como del modelo comercial MusicGen, manteniendo capacidades de generalización a pesar de nuestra optimización específica del dominio.
publishDate 2025
dc.date.none.fl_str_mv 2025-05-12
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000844_Fiorino
url https://hdl.handle.net/20.500.12110/seminario_nCOM000844_Fiorino
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1856934722814345216
score 12.930639