Riffusion es una red neuronal diseñada por Seth Forsgren y Hayk Martiros que genera música usando imágenes de sonido en lugar de audio. [1] Fue creada como un ajuste fino de Stable Diffusion , un modelo de código abierto existente para generar imágenes a partir de indicaciones de texto, en espectrogramas . [1] Esto da como resultado un modelo que usa indicaciones de texto para generar archivos de imagen, que pueden pasarse por una transformada de Fourier inversa y convertirse en archivos de audio. [2] Si bien estos archivos solo duran unos segundos, el modelo también puede usar el espacio latente entre las salidas para interpolar diferentes archivos juntos. [1] [3] Esto se logra usando una funcionalidad del modelo Stable Diffusion conocida como img2img . [4]
La música resultante ha sido descrita como " de otro mundo ", [5] aunque es poco probable que reemplace a la música creada por el hombre. [5] El modelo se puso a disposición el 15 de diciembre de 2022, y el código también está disponible de forma gratuita en GitHub . [2] Es uno de los muchos modelos derivados de Stable Diffusion. [4]
Riffusion se clasifica dentro de un subconjunto de generadores de texto a música con IA. En diciembre de 2022, Mubert [6] utilizó de manera similar Stable Diffusion para convertir texto descriptivo en bucles musicales. En enero de 2023, Google publicó un artículo sobre su propio generador de texto a música llamado MusicLM. [7] [8]