Ajuste de modelos de difusión para la generación de audio

Autores: Fiorino, Santiago; Riera, Pablo
Año de publicación: 2025
Idioma: español castellano
Tipo de recurso: documento de conferencia
Estado: versión publicada
Descripción: La música ha evolucionado junto con la tecnología, desde instrumentos primitivos hasta modernas herramientas de síntesis digital. Actualmente, la inteligencia artificial desempeña un rol importante en la generación musical, empleando transformers y técnicas de difusión para crear canciones completas a partir de indicaciones en lenguaje natural. Sin embargo, los modelos privados, como los de Udio y Suno AI, aunque prometedores, limitan la investigación por su naturaleza cerrada. En 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión y código abierto, democratizando el campo. Pese a su calidad en efectos de sonido, SAO enfrenta limitaciones en generación musical debido a datos de entrenamiento escasos y con licencias abiertas. Nuestra investigación mejora las capacidades musicales de SAO mediante reentrenamiento con un conjunto de datos especializado. Se creó un pipeline que sintetiza audio a partir de archivos MIDI, enriquece metadatos con APIs (Spotify, LastFM) y genera indicaciones en lenguaje natural usando LLMs, obteniendo un conjunto de datos de 9 horas (538 minutos) compuesto por 1023 audios. Este conjunto incluye subconjuntos monofónico, polifónico y audios instrumentales de YouTube en partes iguales, con variedad de géneros, tempos, y tonalidades para diversificar la sonoridad. El modelo reentrenado (“Instrumental Finetune”) supera al SAO original, logrando mejoras en calidad de sonido, precisión instrumental y adherencia a géneros y tempos, alcanzando un 95,3% de precisión frente al 77,6% original. Aunque los desafíos en tonalidad persisten, métricas como KL-Passt y CLAP Score muestran que nuestro modelo iguala o supera el rendimiento de SAO y MusicGen, manteniendo generalización y optimización específica del dominio. Ejemplos auditivos que ilustran estas mejoras y confirman la ausencia de memorización están disponibles en el Project Web.
Music has evolved alongside technological advancements, from primitive percussion to modern digital synthesis tools. Today, artificial intelligence plays important role in music generation, utilizing state-ofthe-art architectures like transformers and diffusion models to generate complete songs from natural language prompts. Proprietary models by Udio and Suno AI demonstrate great potential but limit scientific research due to their closed nature. In June 2024, Stability AI released Stable Audio Open (SAO), an open-source diffusion-based audio synthesis model, democratizing research in this field. While SAO excels in sound effect generation, its musical capabilities are limited by scarce open-license training data. Our research enhances SAO’s musical generation capabilities through fine-tuning on a specialized dataset, addressing its inability to generate certain instruments, difficulties with specified musical elements, and inconsistencies in tempo and tonality. We developed a custom datasetcreation pipeline by synthesizing audio from MIDI files, enriching metadata using APIs like Spotify and LastFM, and generating natural language prompts via large language models. This pipeline produced a 9-hour (538 minutes) music dataset comprising 1023 audios, which includes monophonic, polyphonic, and instrumental YouTube audio subsets in equal parts, spanning various genres, tempos, and tonalities. Results show significant improvements in the fine-tuned model (“Instrumental Finetune”) over the original SAO, particularly in sound quality, instrument reproduction accuracy, genre adherence, and tempo adherence (95.3% accuracy vs. 77.6%). Although tone and scale accuracy remain challenging, embedding-based metrics (KL-Passt, CLAP Score) indicate our model matches or surpasses both SAO and the commercial MusicGen, maintaining generalization despite domain-specific optimization. Auditory examples illustrating these improvements and confirming the absence of memorization are available on the Project Web.
Sociedad Argentina de Informática e Investigación Operativa
Materia: Ciencias Informáticas
Música
Síntesis
Difusión
Transformers
Music
Synthesis
Diffusion
Nivel de accesibilidad: acceso abierto
Condiciones de uso: http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
Institución: Universidad Nacional de La Plata
OAI Identificador: oai:sedici.unlp.edu.ar:10915/190611

Acceder

id	SEDICI_59c25c3f58c56d15eace8f1d1615dd86
oai_identifier_str	oai:sedici.unlp.edu.ar:10915/190611
network_acronym_str	SEDICI
repository_id_str	1329
network_name_str	SEDICI (UNLP)
spelling	Ajuste de modelos de difusión para la generación de audioFine-Tuning Diffusion Models for Audio GenerationFiorino, SantiagoRiera, PabloCiencias InformáticasMúsicaSíntesisDifusiónTransformersMusicSynthesisDiffusionLa música ha evolucionado junto con la tecnología, desde instrumentos primitivos hasta modernas herramientas de síntesis digital. Actualmente, la inteligencia artificial desempeña un rol importante en la generación musical, empleando transformers y técnicas de difusión para crear canciones completas a partir de indicaciones en lenguaje natural. Sin embargo, los modelos privados, como los de Udio y Suno AI, aunque prometedores, limitan la investigación por su naturaleza cerrada. En 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión y código abierto, democratizando el campo. Pese a su calidad en efectos de sonido, SAO enfrenta limitaciones en generación musical debido a datos de entrenamiento escasos y con licencias abiertas. Nuestra investigación mejora las capacidades musicales de SAO mediante reentrenamiento con un conjunto de datos especializado. Se creó un pipeline que sintetiza audio a partir de archivos MIDI, enriquece metadatos con APIs (Spotify, LastFM) y genera indicaciones en lenguaje natural usando LLMs, obteniendo un conjunto de datos de 9 horas (538 minutos) compuesto por 1023 audios. Este conjunto incluye subconjuntos monofónico, polifónico y audios instrumentales de YouTube en partes iguales, con variedad de géneros, tempos, y tonalidades para diversificar la sonoridad. El modelo reentrenado (“Instrumental Finetune”) supera al SAO original, logrando mejoras en calidad de sonido, precisión instrumental y adherencia a géneros y tempos, alcanzando un 95,3% de precisión frente al 77,6% original. Aunque los desafíos en tonalidad persisten, métricas como KL-Passt y CLAP Score muestran que nuestro modelo iguala o supera el rendimiento de SAO y MusicGen, manteniendo generalización y optimización específica del dominio. Ejemplos auditivos que ilustran estas mejoras y confirman la ausencia de memorización están disponibles en el Project Web.Music has evolved alongside technological advancements, from primitive percussion to modern digital synthesis tools. Today, artificial intelligence plays important role in music generation, utilizing state-ofthe-art architectures like transformers and diffusion models to generate complete songs from natural language prompts. Proprietary models by Udio and Suno AI demonstrate great potential but limit scientific research due to their closed nature. In June 2024, Stability AI released Stable Audio Open (SAO), an open-source diffusion-based audio synthesis model, democratizing research in this field. While SAO excels in sound effect generation, its musical capabilities are limited by scarce open-license training data. Our research enhances SAO’s musical generation capabilities through fine-tuning on a specialized dataset, addressing its inability to generate certain instruments, difficulties with specified musical elements, and inconsistencies in tempo and tonality. We developed a custom datasetcreation pipeline by synthesizing audio from MIDI files, enriching metadata using APIs like Spotify and LastFM, and generating natural language prompts via large language models. This pipeline produced a 9-hour (538 minutes) music dataset comprising 1023 audios, which includes monophonic, polyphonic, and instrumental YouTube audio subsets in equal parts, spanning various genres, tempos, and tonalities. Results show significant improvements in the fine-tuned model (“Instrumental Finetune”) over the original SAO, particularly in sound quality, instrument reproduction accuracy, genre adherence, and tempo adherence (95.3% accuracy vs. 77.6%). Although tone and scale accuracy remain challenging, embedding-based metrics (KL-Passt, CLAP Score) indicate our model matches or surpasses both SAO and the commercial MusicGen, maintaining generalization despite domain-specific optimization. Auditory examples illustrating these improvements and confirming the absence of memorization are available on the Project Web.Sociedad Argentina de Informática e Investigación Operativa2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf304-310http://sedici.unlp.edu.ar/handle/10915/190611spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19827info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-04-23T11:55:01Zoai:sedici.unlp.edu.ar:10915/190611Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-04-23 11:55:02.359SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv	Ajuste de modelos de difusión para la generación de audio Fine-Tuning Diffusion Models for Audio Generation
title	Ajuste de modelos de difusión para la generación de audio
spellingShingle	Ajuste de modelos de difusión para la generación de audio Fiorino, Santiago Ciencias Informáticas Música Síntesis Difusión Transformers Music Synthesis Diffusion
title_short	Ajuste de modelos de difusión para la generación de audio
title_full	Ajuste de modelos de difusión para la generación de audio
title_fullStr	Ajuste de modelos de difusión para la generación de audio
title_full_unstemmed	Ajuste de modelos de difusión para la generación de audio
title_sort	Ajuste de modelos de difusión para la generación de audio
dc.creator.none.fl_str_mv	Fiorino, Santiago Riera, Pablo
author	Fiorino, Santiago
author_facet	Fiorino, Santiago Riera, Pablo
author_role	author
author2	Riera, Pablo
author2_role	author
dc.subject.none.fl_str_mv	Ciencias Informáticas Música Síntesis Difusión Transformers Music Synthesis Diffusion
topic	Ciencias Informáticas Música Síntesis Difusión Transformers Music Synthesis Diffusion
dc.description.none.fl_txt_mv	La música ha evolucionado junto con la tecnología, desde instrumentos primitivos hasta modernas herramientas de síntesis digital. Actualmente, la inteligencia artificial desempeña un rol importante en la generación musical, empleando transformers y técnicas de difusión para crear canciones completas a partir de indicaciones en lenguaje natural. Sin embargo, los modelos privados, como los de Udio y Suno AI, aunque prometedores, limitan la investigación por su naturaleza cerrada. En 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión y código abierto, democratizando el campo. Pese a su calidad en efectos de sonido, SAO enfrenta limitaciones en generación musical debido a datos de entrenamiento escasos y con licencias abiertas. Nuestra investigación mejora las capacidades musicales de SAO mediante reentrenamiento con un conjunto de datos especializado. Se creó un pipeline que sintetiza audio a partir de archivos MIDI, enriquece metadatos con APIs (Spotify, LastFM) y genera indicaciones en lenguaje natural usando LLMs, obteniendo un conjunto de datos de 9 horas (538 minutos) compuesto por 1023 audios. Este conjunto incluye subconjuntos monofónico, polifónico y audios instrumentales de YouTube en partes iguales, con variedad de géneros, tempos, y tonalidades para diversificar la sonoridad. El modelo reentrenado (“Instrumental Finetune”) supera al SAO original, logrando mejoras en calidad de sonido, precisión instrumental y adherencia a géneros y tempos, alcanzando un 95,3% de precisión frente al 77,6% original. Aunque los desafíos en tonalidad persisten, métricas como KL-Passt y CLAP Score muestran que nuestro modelo iguala o supera el rendimiento de SAO y MusicGen, manteniendo generalización y optimización específica del dominio. Ejemplos auditivos que ilustran estas mejoras y confirman la ausencia de memorización están disponibles en el Project Web. Music has evolved alongside technological advancements, from primitive percussion to modern digital synthesis tools. Today, artificial intelligence plays important role in music generation, utilizing state-ofthe-art architectures like transformers and diffusion models to generate complete songs from natural language prompts. Proprietary models by Udio and Suno AI demonstrate great potential but limit scientific research due to their closed nature. In June 2024, Stability AI released Stable Audio Open (SAO), an open-source diffusion-based audio synthesis model, democratizing research in this field. While SAO excels in sound effect generation, its musical capabilities are limited by scarce open-license training data. Our research enhances SAO’s musical generation capabilities through fine-tuning on a specialized dataset, addressing its inability to generate certain instruments, difficulties with specified musical elements, and inconsistencies in tempo and tonality. We developed a custom datasetcreation pipeline by synthesizing audio from MIDI files, enriching metadata using APIs like Spotify and LastFM, and generating natural language prompts via large language models. This pipeline produced a 9-hour (538 minutes) music dataset comprising 1023 audios, which includes monophonic, polyphonic, and instrumental YouTube audio subsets in equal parts, spanning various genres, tempos, and tonalities. Results show significant improvements in the fine-tuned model (“Instrumental Finetune”) over the original SAO, particularly in sound quality, instrument reproduction accuracy, genre adherence, and tempo adherence (95.3% accuracy vs. 77.6%). Although tone and scale accuracy remain challenging, embedding-based metrics (KL-Passt, CLAP Score) indicate our model matches or surpasses both SAO and the commercial MusicGen, maintaining generalization despite domain-specific optimization. Auditory examples illustrating these improvements and confirming the absence of memorization are available on the Project Web. Sociedad Argentina de Informática e Investigación Operativa
description	La música ha evolucionado junto con la tecnología, desde instrumentos primitivos hasta modernas herramientas de síntesis digital. Actualmente, la inteligencia artificial desempeña un rol importante en la generación musical, empleando transformers y técnicas de difusión para crear canciones completas a partir de indicaciones en lenguaje natural. Sin embargo, los modelos privados, como los de Udio y Suno AI, aunque prometedores, limitan la investigación por su naturaleza cerrada. En 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión y código abierto, democratizando el campo. Pese a su calidad en efectos de sonido, SAO enfrenta limitaciones en generación musical debido a datos de entrenamiento escasos y con licencias abiertas. Nuestra investigación mejora las capacidades musicales de SAO mediante reentrenamiento con un conjunto de datos especializado. Se creó un pipeline que sintetiza audio a partir de archivos MIDI, enriquece metadatos con APIs (Spotify, LastFM) y genera indicaciones en lenguaje natural usando LLMs, obteniendo un conjunto de datos de 9 horas (538 minutos) compuesto por 1023 audios. Este conjunto incluye subconjuntos monofónico, polifónico y audios instrumentales de YouTube en partes iguales, con variedad de géneros, tempos, y tonalidades para diversificar la sonoridad. El modelo reentrenado (“Instrumental Finetune”) supera al SAO original, logrando mejoras en calidad de sonido, precisión instrumental y adherencia a géneros y tempos, alcanzando un 95,3% de precisión frente al 77,6% original. Aunque los desafíos en tonalidad persisten, métricas como KL-Passt y CLAP Score muestran que nuestro modelo iguala o supera el rendimiento de SAO y MusicGen, manteniendo generalización y optimización específica del dominio. Ejemplos auditivos que ilustran estas mejoras y confirman la ausencia de memorización están disponibles en el Project Web.
publishDate	2025
dc.date.none.fl_str_mv	2025-08
dc.type.none.fl_str_mv	info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia
format	conferenceObject
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://sedici.unlp.edu.ar/handle/10915/190611
url	http://sedici.unlp.edu.ar/handle/10915/190611
dc.language.none.fl_str_mv	spa
language	spa
dc.relation.none.fl_str_mv	info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19827 info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv	application/pdf 304-310
dc.source.none.fl_str_mv	reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP
reponame_str	SEDICI (UNLP)
collection	SEDICI (UNLP)
instname_str	Universidad Nacional de La Plata
instacron_str	UNLP
institution	UNLP
repository.name.fl_str_mv	SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv	alira@sedici.unlp.edu.ar
_version_	1863367864783732736
score	13.05261

Ajuste de modelos de difusión para la generación de audio

Publicaciones similares