Difusión

Espectrograma generado a partir del mensaje " bossa nova con guitarra eléctrica " (arriba) y el audio resultante después de la conversión (abajo)

Riffusion es una red neuronal diseñada por Seth Forsgren y Hayk Martiros que genera música usando imágenes de sonido en lugar de audio. ^[1] Fue creada como un ajuste fino de Stable Diffusion , un modelo de código abierto existente para generar imágenes a partir de indicaciones de texto, en espectrogramas . ^[1] Esto da como resultado un modelo que usa indicaciones de texto para generar archivos de imagen, que pueden pasarse por una transformada de Fourier inversa y convertirse en archivos de audio. ^[2] Si bien estos archivos solo duran unos segundos, el modelo también puede usar el espacio latente entre las salidas para interpolar diferentes archivos juntos. ^[1]^[3] Esto se logra usando una funcionalidad del modelo Stable Diffusion conocida como img2img . ^[4]

La música resultante ha sido descrita como " de otro mundo ", ^[5] aunque es poco probable que reemplace a la música creada por el hombre. ^[5] El modelo se puso a disposición el 15 de diciembre de 2022, y el código también está disponible de forma gratuita en GitHub . ^[2] Es uno de los muchos modelos derivados de Stable Diffusion. ^[4]

Riffusion se clasifica dentro de un subconjunto de generadores de texto a música con IA. En diciembre de 2022, Mubert ^[6] utilizó de manera similar Stable Diffusion para convertir texto descriptivo en bucles musicales. En enero de 2023, Google publicó un artículo sobre su propio generador de texto a música llamado MusicLM. ^[7]^[8]

Referencias

^ abc Coldewey, Devin (15 de diciembre de 2022). "Prueba 'Riffusion', un modelo de IA que compone música visualizándola".
^ ab Nasi, Michele (15 de diciembre de 2022). "Riffusion: crear seguimiento de audio con inteligencia artificial". IlSoftware.it .
^ "Ensayez" Riffusion ", un modelo de IA que compone la música en la visualización". 15 de diciembre de 2022.
^ ab "文章に沿った楽曲を自動生成してくれるAI「Riffusion」登場、画像生成AI「Estable Difusión」ベースで誰でも自由に利用可能". GIGAZINA . 16 de diciembre de 2022.
^ ab Llano, Eutropio (15 de diciembre de 2022). "El generador de imágenes AI también puede producir música (con resultados de otro mundo)".
^ "Mubert lanza la interfaz Text-to-Music: una forma completamente nueva de generar música a partir de un único mensaje de texto". 21 de diciembre de 2022.
^ "MusicLM: Generando música a partir de texto". 26 de enero de 2023.
^ "Cinco razones por las que la aplicación de conversión de texto a música con inteligencia artificial MusicLM de Google es diferente". 27 de enero de 2023.