stringtranslate.com

Difusión

Espectrograma generado a partir del mensaje " bossa nova con guitarra eléctrica " ​​(arriba) y el audio resultante después de la conversión (abajo)

Riffusion es una red neuronal diseñada por Seth Forsgren y Hayk Martiros que genera música usando imágenes de sonido en lugar de audio. [1] Fue creada como un ajuste fino de Stable Diffusion , un modelo de código abierto existente para generar imágenes a partir de indicaciones de texto, en espectrogramas . [1] Esto da como resultado un modelo que usa indicaciones de texto para generar archivos de imagen, que pueden pasarse por una transformada de Fourier inversa y convertirse en archivos de audio. [2] Si bien estos archivos solo duran unos segundos, el modelo también puede usar el espacio latente entre las salidas para interpolar diferentes archivos juntos. [1] [3] Esto se logra usando una funcionalidad del modelo Stable Diffusion conocida como img2img . [4]

La música resultante ha sido descrita como " de otro mundo ", [5] aunque es poco probable que reemplace a la música creada por el hombre. [5] El modelo se puso a disposición el 15 de diciembre de 2022, y el código también está disponible de forma gratuita en GitHub . [2] Es uno de los muchos modelos derivados de Stable Diffusion. [4]

Riffusion se clasifica dentro de un subconjunto de generadores de texto a música con IA. En diciembre de 2022, Mubert [6] utilizó de manera similar Stable Diffusion para convertir texto descriptivo en bucles musicales. En enero de 2023, Google publicó un artículo sobre su propio generador de texto a música llamado MusicLM. [7] [8]

Referencias

  1. ^ abc Coldewey, Devin (15 de diciembre de 2022). "Prueba 'Riffusion', un modelo de IA que compone música visualizándola".
  2. ^ ab Nasi, Michele (15 de diciembre de 2022). "Riffusion: crear seguimiento de audio con inteligencia artificial". IlSoftware.it .
  3. ^ "Ensayez" Riffusion ", un modelo de IA que compone la música en la visualización". 15 de diciembre de 2022.
  4. ^ ab "文章に沿った楽曲を自動生成してくれるAI「Riffusion」登場、画像生成AI「Estable Difusión」ベースで誰でも自由に利用可能". GIGAZINA . 16 de diciembre de 2022.
  5. ^ ab Llano, Eutropio (15 de diciembre de 2022). "El generador de imágenes AI también puede producir música (con resultados de otro mundo)".
  6. ^ "Mubert lanza la interfaz Text-to-Music: una forma completamente nueva de generar música a partir de un único mensaje de texto". 21 de diciembre de 2022.
  7. ^ "MusicLM: Generando música a partir de texto". 26 de enero de 2023.
  8. ^ "Cinco razones por las que la aplicación de conversión de texto a música con inteligencia artificial MusicLM de Google es diferente". 27 de enero de 2023.