Ajuste de modelos de difusión para la generación de audio

Autores
Fiorino, Santiago; Riera, Pablo
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
La música ha evolucionado junto con la tecnología, desde instrumentos primitivos hasta modernas herramientas de síntesis digital. Actualmente, la inteligencia artificial desempeña un rol importante en la generación musical, empleando transformers y técnicas de difusión para crear canciones completas a partir de indicaciones en lenguaje natural. Sin embargo, los modelos privados, como los de Udio y Suno AI, aunque prometedores, limitan la investigación por su naturaleza cerrada. En 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión y código abierto, democratizando el campo. Pese a su calidad en efectos de sonido, SAO enfrenta limitaciones en generación musical debido a datos de entrenamiento escasos y con licencias abiertas. Nuestra investigación mejora las capacidades musicales de SAO mediante reentrenamiento con un conjunto de datos especializado. Se creó un pipeline que sintetiza audio a partir de archivos MIDI, enriquece metadatos con APIs (Spotify, LastFM) y genera indicaciones en lenguaje natural usando LLMs, obteniendo un conjunto de datos de 9 horas (538 minutos) compuesto por 1023 audios. Este conjunto incluye subconjuntos monofónico, polifónico y audios instrumentales de YouTube en partes iguales, con variedad de géneros, tempos, y tonalidades para diversificar la sonoridad. El modelo reentrenado (“Instrumental Finetune”) supera al SAO original, logrando mejoras en calidad de sonido, precisión instrumental y adherencia a géneros y tempos, alcanzando un 95,3% de precisión frente al 77,6% original. Aunque los desafíos en tonalidad persisten, métricas como KL-Passt y CLAP Score muestran que nuestro modelo iguala o supera el rendimiento de SAO y MusicGen, manteniendo generalización y optimización específica del dominio. Ejemplos auditivos que ilustran estas mejoras y confirman la ausencia de memorización están disponibles en el Project Web.
Music has evolved alongside technological advancements, from primitive percussion to modern digital synthesis tools. Today, artificial intelligence plays important role in music generation, utilizing state-ofthe-art architectures like transformers and diffusion models to generate complete songs from natural language prompts. Proprietary models by Udio and Suno AI demonstrate great potential but limit scientific research due to their closed nature. In June 2024, Stability AI released Stable Audio Open (SAO), an open-source diffusion-based audio synthesis model, democratizing research in this field. While SAO excels in sound effect generation, its musical capabilities are limited by scarce open-license training data. Our research enhances SAO’s musical generation capabilities through fine-tuning on a specialized dataset, addressing its inability to generate certain instruments, difficulties with specified musical elements, and inconsistencies in tempo and tonality. We developed a custom datasetcreation pipeline by synthesizing audio from MIDI files, enriching metadata using APIs like Spotify and LastFM, and generating natural language prompts via large language models. This pipeline produced a 9-hour (538 minutes) music dataset comprising 1023 audios, which includes monophonic, polyphonic, and instrumental YouTube audio subsets in equal parts, spanning various genres, tempos, and tonalities. Results show significant improvements in the fine-tuned model (“Instrumental Finetune”) over the original SAO, particularly in sound quality, instrument reproduction accuracy, genre adherence, and tempo adherence (95.3% accuracy vs. 77.6%). Although tone and scale accuracy remain challenging, embedding-based metrics (KL-Passt, CLAP Score) indicate our model matches or surpasses both SAO and the commercial MusicGen, maintaining generalization despite domain-specific optimization. Auditory examples illustrating these improvements and confirming the absence of memorization are available on the Project Web.
Sociedad Argentina de Informática e Investigación Operativa
Materia
Ciencias Informáticas
Música
Síntesis
Difusión
Transformers
Music
Synthesis
Diffusion
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/190611

id SEDICI_59c25c3f58c56d15eace8f1d1615dd86
oai_identifier_str oai:sedici.unlp.edu.ar:10915/190611
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Ajuste de modelos de difusión para la generación de audioFine-Tuning Diffusion Models for Audio GenerationFiorino, SantiagoRiera, PabloCiencias InformáticasMúsicaSíntesisDifusiónTransformersMusicSynthesisDiffusionLa música ha evolucionado junto con la tecnología, desde instrumentos primitivos hasta modernas herramientas de síntesis digital. Actualmente, la inteligencia artificial desempeña un rol importante en la generación musical, empleando transformers y técnicas de difusión para crear canciones completas a partir de indicaciones en lenguaje natural. Sin embargo, los modelos privados, como los de Udio y Suno AI, aunque prometedores, limitan la investigación por su naturaleza cerrada. En 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión y código abierto, democratizando el campo. Pese a su calidad en efectos de sonido, SAO enfrenta limitaciones en generación musical debido a datos de entrenamiento escasos y con licencias abiertas. Nuestra investigación mejora las capacidades musicales de SAO mediante reentrenamiento con un conjunto de datos especializado. Se creó un pipeline que sintetiza audio a partir de archivos MIDI, enriquece metadatos con APIs (Spotify, LastFM) y genera indicaciones en lenguaje natural usando LLMs, obteniendo un conjunto de datos de 9 horas (538 minutos) compuesto por 1023 audios. Este conjunto incluye subconjuntos monofónico, polifónico y audios instrumentales de YouTube en partes iguales, con variedad de géneros, tempos, y tonalidades para diversificar la sonoridad. El modelo reentrenado (“Instrumental Finetune”) supera al SAO original, logrando mejoras en calidad de sonido, precisión instrumental y adherencia a géneros y tempos, alcanzando un 95,3% de precisión frente al 77,6% original. Aunque los desafíos en tonalidad persisten, métricas como KL-Passt y CLAP Score muestran que nuestro modelo iguala o supera el rendimiento de SAO y MusicGen, manteniendo generalización y optimización específica del dominio. Ejemplos auditivos que ilustran estas mejoras y confirman la ausencia de memorización están disponibles en el Project Web.Music has evolved alongside technological advancements, from primitive percussion to modern digital synthesis tools. Today, artificial intelligence plays important role in music generation, utilizing state-ofthe-art architectures like transformers and diffusion models to generate complete songs from natural language prompts. Proprietary models by Udio and Suno AI demonstrate great potential but limit scientific research due to their closed nature. In June 2024, Stability AI released Stable Audio Open (SAO), an open-source diffusion-based audio synthesis model, democratizing research in this field. While SAO excels in sound effect generation, its musical capabilities are limited by scarce open-license training data. Our research enhances SAO’s musical generation capabilities through fine-tuning on a specialized dataset, addressing its inability to generate certain instruments, difficulties with specified musical elements, and inconsistencies in tempo and tonality. We developed a custom datasetcreation pipeline by synthesizing audio from MIDI files, enriching metadata using APIs like Spotify and LastFM, and generating natural language prompts via large language models. This pipeline produced a 9-hour (538 minutes) music dataset comprising 1023 audios, which includes monophonic, polyphonic, and instrumental YouTube audio subsets in equal parts, spanning various genres, tempos, and tonalities. Results show significant improvements in the fine-tuned model (“Instrumental Finetune”) over the original SAO, particularly in sound quality, instrument reproduction accuracy, genre adherence, and tempo adherence (95.3% accuracy vs. 77.6%). Although tone and scale accuracy remain challenging, embedding-based metrics (KL-Passt, CLAP Score) indicate our model matches or surpasses both SAO and the commercial MusicGen, maintaining generalization despite domain-specific optimization. Auditory examples illustrating these improvements and confirming the absence of memorization are available on the Project Web.Sociedad Argentina de Informática e Investigación Operativa2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf304-310http://sedici.unlp.edu.ar/handle/10915/190611spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19827info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-03-31T12:41:19Zoai:sedici.unlp.edu.ar:10915/190611Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-03-31 12:41:20.243SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Ajuste de modelos de difusión para la generación de audio
Fine-Tuning Diffusion Models for Audio Generation
title Ajuste de modelos de difusión para la generación de audio
spellingShingle Ajuste de modelos de difusión para la generación de audio
Fiorino, Santiago
Ciencias Informáticas
Música
Síntesis
Difusión
Transformers
Music
Synthesis
Diffusion
title_short Ajuste de modelos de difusión para la generación de audio
title_full Ajuste de modelos de difusión para la generación de audio
title_fullStr Ajuste de modelos de difusión para la generación de audio
title_full_unstemmed Ajuste de modelos de difusión para la generación de audio
title_sort Ajuste de modelos de difusión para la generación de audio
dc.creator.none.fl_str_mv Fiorino, Santiago
Riera, Pablo
author Fiorino, Santiago
author_facet Fiorino, Santiago
Riera, Pablo
author_role author
author2 Riera, Pablo
author2_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
Música
Síntesis
Difusión
Transformers
Music
Synthesis
Diffusion
topic Ciencias Informáticas
Música
Síntesis
Difusión
Transformers
Music
Synthesis
Diffusion
dc.description.none.fl_txt_mv La música ha evolucionado junto con la tecnología, desde instrumentos primitivos hasta modernas herramientas de síntesis digital. Actualmente, la inteligencia artificial desempeña un rol importante en la generación musical, empleando transformers y técnicas de difusión para crear canciones completas a partir de indicaciones en lenguaje natural. Sin embargo, los modelos privados, como los de Udio y Suno AI, aunque prometedores, limitan la investigación por su naturaleza cerrada. En 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión y código abierto, democratizando el campo. Pese a su calidad en efectos de sonido, SAO enfrenta limitaciones en generación musical debido a datos de entrenamiento escasos y con licencias abiertas. Nuestra investigación mejora las capacidades musicales de SAO mediante reentrenamiento con un conjunto de datos especializado. Se creó un pipeline que sintetiza audio a partir de archivos MIDI, enriquece metadatos con APIs (Spotify, LastFM) y genera indicaciones en lenguaje natural usando LLMs, obteniendo un conjunto de datos de 9 horas (538 minutos) compuesto por 1023 audios. Este conjunto incluye subconjuntos monofónico, polifónico y audios instrumentales de YouTube en partes iguales, con variedad de géneros, tempos, y tonalidades para diversificar la sonoridad. El modelo reentrenado (“Instrumental Finetune”) supera al SAO original, logrando mejoras en calidad de sonido, precisión instrumental y adherencia a géneros y tempos, alcanzando un 95,3% de precisión frente al 77,6% original. Aunque los desafíos en tonalidad persisten, métricas como KL-Passt y CLAP Score muestran que nuestro modelo iguala o supera el rendimiento de SAO y MusicGen, manteniendo generalización y optimización específica del dominio. Ejemplos auditivos que ilustran estas mejoras y confirman la ausencia de memorización están disponibles en el Project Web.
Music has evolved alongside technological advancements, from primitive percussion to modern digital synthesis tools. Today, artificial intelligence plays important role in music generation, utilizing state-ofthe-art architectures like transformers and diffusion models to generate complete songs from natural language prompts. Proprietary models by Udio and Suno AI demonstrate great potential but limit scientific research due to their closed nature. In June 2024, Stability AI released Stable Audio Open (SAO), an open-source diffusion-based audio synthesis model, democratizing research in this field. While SAO excels in sound effect generation, its musical capabilities are limited by scarce open-license training data. Our research enhances SAO’s musical generation capabilities through fine-tuning on a specialized dataset, addressing its inability to generate certain instruments, difficulties with specified musical elements, and inconsistencies in tempo and tonality. We developed a custom datasetcreation pipeline by synthesizing audio from MIDI files, enriching metadata using APIs like Spotify and LastFM, and generating natural language prompts via large language models. This pipeline produced a 9-hour (538 minutes) music dataset comprising 1023 audios, which includes monophonic, polyphonic, and instrumental YouTube audio subsets in equal parts, spanning various genres, tempos, and tonalities. Results show significant improvements in the fine-tuned model (“Instrumental Finetune”) over the original SAO, particularly in sound quality, instrument reproduction accuracy, genre adherence, and tempo adherence (95.3% accuracy vs. 77.6%). Although tone and scale accuracy remain challenging, embedding-based metrics (KL-Passt, CLAP Score) indicate our model matches or surpasses both SAO and the commercial MusicGen, maintaining generalization despite domain-specific optimization. Auditory examples illustrating these improvements and confirming the absence of memorization are available on the Project Web.
Sociedad Argentina de Informática e Investigación Operativa
description La música ha evolucionado junto con la tecnología, desde instrumentos primitivos hasta modernas herramientas de síntesis digital. Actualmente, la inteligencia artificial desempeña un rol importante en la generación musical, empleando transformers y técnicas de difusión para crear canciones completas a partir de indicaciones en lenguaje natural. Sin embargo, los modelos privados, como los de Udio y Suno AI, aunque prometedores, limitan la investigación por su naturaleza cerrada. En 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión y código abierto, democratizando el campo. Pese a su calidad en efectos de sonido, SAO enfrenta limitaciones en generación musical debido a datos de entrenamiento escasos y con licencias abiertas. Nuestra investigación mejora las capacidades musicales de SAO mediante reentrenamiento con un conjunto de datos especializado. Se creó un pipeline que sintetiza audio a partir de archivos MIDI, enriquece metadatos con APIs (Spotify, LastFM) y genera indicaciones en lenguaje natural usando LLMs, obteniendo un conjunto de datos de 9 horas (538 minutos) compuesto por 1023 audios. Este conjunto incluye subconjuntos monofónico, polifónico y audios instrumentales de YouTube en partes iguales, con variedad de géneros, tempos, y tonalidades para diversificar la sonoridad. El modelo reentrenado (“Instrumental Finetune”) supera al SAO original, logrando mejoras en calidad de sonido, precisión instrumental y adherencia a géneros y tempos, alcanzando un 95,3% de precisión frente al 77,6% original. Aunque los desafíos en tonalidad persisten, métricas como KL-Passt y CLAP Score muestran que nuestro modelo iguala o supera el rendimiento de SAO y MusicGen, manteniendo generalización y optimización específica del dominio. Ejemplos auditivos que ilustran estas mejoras y confirman la ausencia de memorización están disponibles en el Project Web.
publishDate 2025
dc.date.none.fl_str_mv 2025-08
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/190611
url http://sedici.unlp.edu.ar/handle/10915/190611
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19827
info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
304-310
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1861199749432999936
score 13.306968