stringtranslate.com

Difusión estable

Stable Diffusion es un modelo de aprendizaje profundo de texto a imagen lanzado en 2022 basado en técnicas de difusión . La tecnología de inteligencia artificial generativa es el producto principal de Stability AI y se considera parte del auge actual de la inteligencia artificial .

Se utiliza principalmente para generar imágenes detalladas condicionadas a descripciones de texto, aunque también se puede aplicar a otras tareas como el relleno , el desvanecimiento y la generación de traducciones de imagen a imagen guiadas por una indicación de texto . [3] Su desarrollo involucró a investigadores del Grupo CompVis de la Universidad Ludwig Maximilian de Múnich y Runway con una donación computacional de Stability y datos de entrenamiento de organizaciones sin fines de lucro. [4] [5] [6] [7]

Stable Diffusion es un modelo de difusión latente , una especie de red neuronal artificial generativa profunda . Su código y los pesos del modelo se han publicado públicamente [8] y puede ejecutarse en la mayoría de los equipos de consumo equipados con una GPU modesta con al menos 4 GB de VRAM . Esto marcó un cambio con respecto a los modelos de texto a imagen propietarios anteriores, como DALL-E y Midjourney , a los que solo se podía acceder a través de servicios en la nube . [9] [10]

Desarrollo

Stable Diffusion surgió de un proyecto llamado Latent Diffusion , [11] desarrollado en Alemania por investigadores de la Universidad Ludwig Maximilian de Múnich y la Universidad de Heidelberg . Cuatro de los cinco autores originales (Robin Rombach, Andreas Blattmann, Patrick Esser y Dominik Lorenz) se unieron posteriormente a Stability AI y lanzaron versiones posteriores de Stable Diffusion. [12]

La licencia técnica del modelo fue publicada por el grupo CompVis de la Universidad Ludwig Maximilian de Múnich. [10] El desarrollo estuvo a cargo de Patrick Esser de Runway y Robin Rombach de CompVis, quienes se encontraban entre los investigadores que habían inventado anteriormente la arquitectura del modelo de difusión latente utilizada por Stable Diffusion. [7] Stability AI también reconoció a EleutherAI y LAION (una organización alemana sin fines de lucro que reunió el conjunto de datos en el que se entrenó a Stable Diffusion) como patrocinadores del proyecto. [7]

Tecnología

Diagrama de la arquitectura de difusión latente utilizada por Stable Diffusion
El proceso de eliminación de ruido utilizado por Stable Diffusion. El modelo genera imágenes eliminando de forma iterativa el ruido aleatorio hasta que se alcanza una cantidad configurada de pasos, guiado por el codificador de texto CLIP entrenado previamente en conceptos junto con el mecanismo de atención, lo que da como resultado la imagen deseada que muestra una representación del concepto entrenado.

Arquitectura

Los modelos de la serie Stable Diffusion anteriores a SD 3 usaban un tipo de modelo de difusión (DM), llamado modelo de difusión latente (LDM) , desarrollado por el grupo CompVis (Computer Vision & Learning) [13] en LMU Munich . [14] [8] Introducidos en 2015, los modelos de difusión se entrenan con el objetivo de eliminar aplicaciones sucesivas de ruido gaussiano en imágenes de entrenamiento, que pueden considerarse como una secuencia de autocodificadores de eliminación de ruido . Stable Diffusion consta de 3 partes: el autocodificador variacional (VAE), U-Net y un codificador de texto opcional. [15] El codificador VAE comprime la imagen desde el espacio de píxeles a un espacio latente de dimensión más pequeña , capturando un significado semántico más fundamental de la imagen. [14] El ruido gaussiano se aplica iterativamente a la representación latente comprimida durante la difusión hacia adelante. [15] El bloque U-Net, compuesto por una estructura principal ResNet , elimina el ruido de la salida de la difusión hacia adelante y hacia atrás para obtener una representación latente. Finalmente, el decodificador VAE genera la imagen final convirtiendo la representación nuevamente en espacio de píxeles. [15]

El paso de eliminación de ruido se puede condicionar de forma flexible a una cadena de texto, una imagen u otra modalidad. Los datos de condicionamiento codificados se exponen a U-Nets de eliminación de ruido a través de un mecanismo de atención cruzada . [15] Para el condicionamiento en texto, se utiliza el codificador de texto fijo y preentrenado CLIP ViT-L/14 para transformar las indicaciones de texto en un espacio de incrustación. [8] Los investigadores señalan la mayor eficiencia computacional para el entrenamiento y la generación como una ventaja de los LDM. [7] [14]

El nombre difusión se inspira en la difusión termodinámica y en 2015 se estableció un vínculo importante entre este campo puramente físico y el aprendizaje profundo. [16] [17]

Con 860  millones de parámetros en U-Net y 123  millones en el codificador de texto, Stable Diffusion se considera relativamente liviano para los estándares de 2022 y, a diferencia de otros modelos de difusión, puede ejecutarse en GPU de consumo , [18] e incluso en CPU , solo si se usa la versión OpenVINO de Stable Diffusion. [19]

Tarjeta SD XL

La versión XL utiliza la misma arquitectura LDM que las versiones anteriores, [20] excepto que es más grande: una red troncal UNet más grande, un contexto de atención cruzada más grande, dos codificadores de texto en lugar de uno y está entrenada en múltiples relaciones de aspecto (no solo la relación de aspecto cuadrada como las versiones anteriores).

El SD ​​XL Refiner, lanzado al mismo tiempo, tiene la misma arquitectura que SD XL, pero fue entrenado para agregar detalles finos a imágenes preexistentes a través de img2img condicional de texto.

SD 3.0

La versión 3.0 [21] cambia por completo la estructura básica. No se trata de una UNet, sino de un Transformador de Flujo Rectificado , que implementa el método de flujo rectificado [22] [23] con un Transformador .

La arquitectura Transformer utilizada para SD 3.0 tiene tres "pistas": codificación de texto original, codificación de texto transformado y codificación de imagen (en espacio latente). La codificación de texto transformado y la codificación de imagen se mezclan durante cada bloque de transformación.

La arquitectura se denomina "transformador de difusión multimodal" (MMDiT), donde "multimodal" significa que mezcla codificaciones de texto e imagen dentro de sus operaciones. Esto difiere de las versiones anteriores de DiT, donde la codificación de texto afecta la codificación de imagen, pero no al revés.

Datos de entrenamiento

Stable Diffusion se entrenó con pares de imágenes y subtítulos tomados de LAION-5B, un conjunto de datos disponible públicamente derivado de datos de Common Crawl extraídos de la web, donde se clasificaron 5 mil millones de pares de imágenes y texto en función del idioma y se filtraron en conjuntos de datos separados por resolución, una probabilidad prevista de contener una marca de agua y una puntuación "estética" prevista (por ejemplo, calidad visual subjetiva). [24] El conjunto de datos fue creado por LAION , una organización alemana sin fines de lucro que recibe fondos de Stability AI. [24] [25] El modelo Stable Diffusion se entrenó con tres subconjuntos de LAION-5B: laion2B-en, laion-high-resolution y laion-aesthetics v2 5+. [24] Un análisis de terceros de los datos de entrenamiento del modelo identificó que de un subconjunto más pequeño de 12 millones de imágenes tomadas del conjunto de datos original más amplio utilizado, aproximadamente el 47% del tamaño de la muestra de imágenes provenía de 100 dominios diferentes, y Pinterest ocupaba el 8,5% del subconjunto, seguido de sitios web como WordPress , Blogspot , Flickr , DeviantArt y Wikimedia Commons . [ cita requerida ] Una investigación de Bayerischer Rundfunk mostró que los conjuntos de datos de LAION, alojados en Hugging Face, contienen grandes cantidades de datos privados y confidenciales. [26]

Procedimientos de formación

El modelo se entrenó inicialmente en los subconjuntos laion2B-en y laion-high-resolution, y las últimas rondas de entrenamiento se realizaron en LAION-Aesthetics v2 5+, un subconjunto de 600 millones de imágenes subtituladas que el LAION-Aesthetics Predictor V2 predijo que los humanos, en promedio, darían una puntuación de al menos 5 sobre 10 cuando se les pidiera que calificaran cuánto les gustaban. [27] [24] [28] El subconjunto LAION-Aesthetics v2 5+ también excluyó las imágenes de baja resolución y las imágenes que LAION-5B-WatermarkDetection identificó como portadoras de una marca de agua con una probabilidad superior al 80%. [24] Las rondas finales de entrenamiento también eliminaron el 10% del condicionamiento de texto para mejorar la guía de difusión sin clasificador. [29]

El modelo se entrenó utilizando 256 GPU Nvidia A100 en Amazon Web Services por un total de 150.000 horas de GPU, a un costo de $600.000. [30] [31] [32]

El entrenamiento de SD3 tuvo un coste de alrededor de 10 millones de dólares. [33]

Limitaciones

Stable Diffusion tiene problemas de degradación e imprecisiones en ciertos escenarios. Las versiones iniciales del modelo se entrenaron en un conjunto de datos que consta de imágenes con una resolución de 512 × 512, lo que significa que la calidad de las imágenes generadas se degrada notablemente cuando las especificaciones del usuario se desvían de su resolución "esperada" de 512 × 512; [34] la actualización de la versión 2.0 del modelo Stable Diffusion introdujo posteriormente la capacidad de generar de forma nativa imágenes con una resolución de 768 × 768. [35] Otro desafío es la generación de extremidades humanas debido a la mala calidad de los datos de las extremidades en la base de datos LAION. [36] El modelo no está lo suficientemente entrenado para comprender las extremidades y los rostros humanos debido a la falta de características representativas en la base de datos, y solicitar al modelo que genere imágenes de ese tipo puede confundir al modelo. [37] La ​​versión 1.0 de Stable Diffusion XL (SDXL), lanzada en julio de 2023, introdujo una resolución nativa de 1024x1024 y mejoró la generación de extremidades y texto. [38] [39]

La accesibilidad para desarrolladores individuales también puede ser un problema. Para personalizar el modelo para nuevos casos de uso que no están incluidos en el conjunto de datos, como generar personajes de anime ("difusión de waifu"), [40] se requieren nuevos datos y más entrenamiento. Las adaptaciones ajustadas de Stable Diffusion creadas a través de un reentrenamiento adicional se han utilizado para una variedad de casos de uso diferentes, desde imágenes médicas [41] hasta música generada algorítmicamente . [42] Sin embargo, este proceso de ajuste fino es sensible a la calidad de los nuevos datos; las imágenes de baja resolución o resoluciones diferentes de los datos originales no solo pueden fallar en el aprendizaje de la nueva tarea, sino que degradan el rendimiento general del modelo. Incluso cuando el modelo se entrena adicionalmente en imágenes de alta calidad, es difícil para las personas ejecutar modelos en productos electrónicos de consumo. Por ejemplo, el proceso de entrenamiento para la difusión de waifu requiere un mínimo de 30 GB de VRAM , [43] que excede el recurso habitual proporcionado en GPU de consumo como la serie GeForce 30 de Nvidia , que solo tiene alrededor de 12 GB. [44]

Los creadores de Stable Diffusion reconocen el potencial de sesgo algorítmico , ya que el modelo se entrenó principalmente con imágenes con descripciones en inglés. [31] Como resultado, las imágenes generadas refuerzan los sesgos sociales y provienen de una perspectiva occidental, ya que los creadores señalan que el modelo carece de datos de otras comunidades y culturas. El modelo brinda resultados más precisos para las indicaciones escritas en inglés en comparación con las escritas en otros idiomas, siendo las culturas occidentales o blancas la representación predeterminada. [31]

Ajuste fino por parte del usuario final

Para abordar las limitaciones del entrenamiento inicial del modelo, los usuarios finales pueden optar por implementar un entrenamiento adicional para ajustar los resultados de generación de modo que coincidan con casos de uso más específicos, un proceso también conocido como personalización . Existen tres métodos en los que se puede aplicar un ajuste fino accesible para el usuario a un punto de control del modelo de difusión estable:

Capacidades

El modelo de difusión estable permite generar nuevas imágenes desde cero mediante el uso de un mensaje de texto que describe los elementos que se incluirán u omitirán en la salida. [8] El modelo puede volver a dibujar imágenes existentes para incorporar nuevos elementos descritos por un mensaje de texto (un proceso conocido como "síntesis de imágenes guiada" [49] ) a través de su mecanismo de difusión y eliminación de ruido. [8] Además, el modelo también permite el uso de mensajes para alterar parcialmente imágenes existentes mediante la introducción y eliminación de ruido, cuando se utiliza con una interfaz de usuario adecuada que admita dichas funciones, de las que existen numerosas implementaciones de código abierto diferentes. [50]

Se recomienda ejecutar Stable Diffusion con 10 GB o más de VRAM, sin embargo, los usuarios con menos VRAM pueden optar por cargar los pesos con precisión float16 en lugar del float32 predeterminado para compensar el rendimiento del modelo con un menor uso de VRAM. [34]

Generación de texto a imagen

Demostración del efecto de los estímulos negativos en la generación de imágenes
  • Arriba : sin mensaje negativo
  • Centro : "árboles verdes"
  • Abajo : "piedras redondas, rocas redondas"

El script de muestreo de texto a imagen de Stable Diffusion, conocido como "txt2img", consume un mensaje de texto además de diversos parámetros de opción que cubren los tipos de muestreo, las dimensiones de la imagen de salida y los valores de semilla. El script genera un archivo de imagen basado en la interpretación del mensaje por parte del modelo. [8] Las imágenes generadas se etiquetan con una marca de agua digital invisible para permitir que los usuarios identifiquen una imagen como generada por Stable Diffusion, [8] aunque esta marca de agua pierde su eficacia si la imagen se redimensiona o se rota. [51]

Cada generación de txt2img implicará un valor de semilla específico que afecta a la imagen de salida. Los usuarios pueden optar por aleatorizar la semilla para explorar diferentes salidas generadas, o usar la misma semilla para obtener la misma salida de imagen que una imagen generada previamente. [34] Los usuarios también pueden ajustar el número de pasos de inferencia para el muestreador; un valor más alto requiere una mayor duración de tiempo, sin embargo, un valor más bajo puede resultar en defectos visuales. [34] Otra opción configurable, el valor de escala de guía sin clasificador, permite al usuario ajustar qué tan cerca se adhiere la imagen de salida a la indicación. [29] Los casos de uso más experimentales pueden optar por un valor de escala más bajo, mientras que los casos de uso que apuntan a salidas más específicas pueden usar un valor más alto. [34]

Las implementaciones de interfaz de usuario de Stable Diffusion proporcionan características adicionales de text2img , que permiten a los usuarios modificar el peso dado a partes específicas del mensaje de texto. Los marcadores de énfasis permiten a los usuarios agregar o reducir el énfasis a las palabras clave encerrándolas entre corchetes. [52] Un método alternativo para ajustar el peso de partes del mensaje son los "mensajes negativos". Los mensajes negativos son una característica incluida en algunas implementaciones de interfaz de usuario, incluido el servicio en la nube DreamStudio de Stability AI, y permiten al usuario especificar mensajes que el modelo debe evitar durante la generación de imágenes. Los mensajes especificados pueden ser características de imagen indeseables que de otro modo estarían presentes en las salidas de imagen debido a los mensajes positivos proporcionados por el usuario, o debido a cómo se entrenó originalmente el modelo, siendo las manos humanas destrozadas un ejemplo común. [50] [53]

Modificación de imagen

Demostración de la modificación de img2img
  • Izquierda : Imagen original creada con Stable Diffusion 1.5
  • Derecha : Imagen modificada creada con Stable Diffusion XL 1.0

Stable Diffusion también incluye otro script de muestreo, "img2img", que consume un mensaje de texto, una ruta a una imagen existente y un valor de intensidad entre 0,0 y 1,0. El script genera una nueva imagen basada en la imagen original que también incluye elementos proporcionados en el mensaje de texto. El valor de intensidad indica la cantidad de ruido añadido a la imagen de salida. Un valor de intensidad más alto produce más variación dentro de la imagen, pero puede producir una imagen que no sea semánticamente coherente con el mensaje proporcionado. [8]

Existen diferentes métodos para realizar la conversión img2img. El método principal es SDEdit, [54] que primero agrega ruido a una imagen y luego lo elimina como es habitual en text2img.

La capacidad de img2img para añadir ruido a la imagen original la hace potencialmente útil para la anonimización y el aumento de datos , en los que se modifican y anonimizan las características visuales de los datos de la imagen. [55] El mismo proceso también puede ser útil para el aumento de escala de la imagen, en el que se aumenta la resolución de una imagen, y potencialmente se añaden más detalles a la imagen. [55] Además, se ha experimentado con Stable Diffusion como herramienta para la compresión de imágenes. En comparación con JPEG y WebP , los métodos recientes utilizados para la compresión de imágenes en Stable Diffusion enfrentan limitaciones a la hora de preservar textos y rostros pequeños. [56]

Numerosas implementaciones de interfaz del modelo Stable Diffusion ofrecen casos de uso adicionales para la modificación de imágenes a través de img2img. La restauración de la imagen implica modificar selectivamente una parte de una imagen existente delineada por una máscara de capa proporcionada por el usuario , que llena el espacio enmascarado con contenido recién generado en función de la solicitud proporcionada. [50] Stability AI creó un modelo dedicado específicamente ajustado para casos de uso de restauración de la imagen junto con el lanzamiento de Stable Diffusion 2.0. [35] Por el contrario, la restauración de la imagen extiende una imagen más allá de sus dimensiones originales, llenando el espacio previamente vacío con contenido generado en función de la solicitud proporcionada. [50]

El 24 de noviembre de 2022, con el lanzamiento de Stable Diffusion 2.0, se introdujo un modelo guiado por profundidad, denominado "depth2img". Este modelo infiere la profundidad de la imagen de entrada proporcionada y genera una nueva imagen de salida basada tanto en el mensaje de texto como en la información de profundidad, lo que permite mantener la coherencia y la profundidad de la imagen de entrada original en la salida generada. [35]

ControlNet

ControlNet [57] es una arquitectura de red neuronal diseñada para gestionar modelos de difusión mediante la incorporación de condiciones adicionales. Duplica los pesos de los bloques de la red neuronal en una copia "bloqueada" y una copia "entrenable". La copia "entrenable" aprende la condición deseada, mientras que la copia "bloqueada" conserva el modelo original. Este enfoque garantiza que el entrenamiento con pequeños conjuntos de datos de pares de imágenes no comprometa la integridad de los modelos de difusión listos para producción. La "convolución cero" es una convolución 1×1 con el peso y el sesgo inicializados a cero. Antes del entrenamiento, todas las convoluciones cero producen una salida cero, lo que evita cualquier distorsión causada por ControlNet. Ninguna capa se entrena desde cero; el proceso aún se está ajustando, lo que mantiene seguro el modelo original. Este método permite el entrenamiento en dispositivos de pequeña escala o incluso personales.

Interfaces de usuario

Stability proporciona un servicio de generación de imágenes en línea llamado DreamStudio . [58] [59] La compañía también lanzó una versión de código abierto de DreamStudio llamada StableStudio . [60] [61] Además de las interfaces de Stability, existen muchas interfaces de código abierto de terceros, como AUTOMATIC1111 Stable Diffusion Web UI , que es la más popular y ofrece funciones adicionales, [62] Fooocus , que tiene como objetivo disminuir la cantidad de indicaciones que necesita el usuario, [63] y ComfyUI , que tiene una interfaz de usuario basada en nodos , esencialmente un lenguaje de programación visual similar a muchas aplicaciones de modelado 3D . [64] [65] [66]

Lanzamientos

Documentos clave

Costo de capacitación

Uso y controversia

Stable Diffusion no reclama ningún derecho sobre las imágenes generadas y otorga libremente a los usuarios los derechos de uso de cualquier imagen generada a partir del modelo, siempre que el contenido de la imagen no sea ilegal ni perjudicial para las personas. [80]

Las imágenes con las que se entrenó Stable Diffusion se filtraron sin intervención humana, lo que generó algunas imágenes dañinas y grandes cantidades de información privada y confidencial que aparecen en los datos de entrenamiento. [26]

Los artistas visuales más tradicionales han expresado su preocupación por el hecho de que el uso generalizado de software de síntesis de imágenes como Stable Diffusion pueda eventualmente llevar a que los artistas humanos, junto con los fotógrafos, modelos, directores de fotografía y actores, pierdan gradualmente viabilidad comercial frente a competidores basados ​​en IA. [81]

Stable Diffusion es notablemente más permisiva en los tipos de contenido que los usuarios pueden generar, como imágenes violentas o sexualmente explícitas, en comparación con otros productos comerciales basados ​​en IA generativa. [82] En respuesta a las preocupaciones de que el modelo pueda usarse con fines abusivos, el director ejecutivo de Stability AI, Emad Mostaque , argumenta que "[es] responsabilidad de las personas si son éticas, morales y legales en la forma en que operan esta tecnología", [10] y que poner las capacidades de Stable Diffusion en manos del público daría como resultado que la tecnología proporcione un beneficio neto, a pesar de las posibles consecuencias negativas. [10] Además, Mostaque argumenta que la intención detrás de la disponibilidad abierta de Stable Diffusion es terminar con el control y dominio corporativo sobre tales tecnologías, que anteriormente solo han desarrollado sistemas de IA cerrados para la síntesis de imágenes. [10] [82] Esto se refleja en el hecho de que cualquier restricción que Stability AI imponga al contenido que los usuarios pueden generar se puede eludir fácilmente debido a la disponibilidad del código fuente. [83]

Se ha generado controversia en torno a representaciones sexualizadas fotorrealistas de personajes menores de edad , debido a que dichas imágenes generadas por Stable Diffusion se comparten en sitios web como Pixiv . [84]

En junio de 2024, se produjo un ataque a una extensión de ComfyUI , una interfaz de usuario para Stable Diffusion, y los piratas informáticos afirmaron que tenían como objetivo a usuarios que cometieron "uno de nuestros pecados", que incluía la generación de arte con IA, el robo de arte y la promoción de criptomonedas. [85]

Litigio

Andersen, McKernan y Ortiz contra Stability AI, Midjourney y DeviantArt

En enero de 2023, tres artistas, Sarah Andersen , Kelly McKernan y Karla Ortiz, presentaron una demanda por infracción de derechos de autor contra Stability AI, Midjourney y DeviantArt , alegando que estas empresas han infringido los derechos de millones de artistas al entrenar herramientas de IA en cinco mil millones de imágenes extraídas de la web sin el consentimiento de los artistas originales. [86]

En julio de 2023, el juez de distrito estadounidense William Orrick se inclinó a desestimar la mayor parte de la demanda presentada por Andersen, McKernan y Ortiz, pero les permitió presentar una nueva denuncia, brindándoles la oportunidad de replantear sus argumentos. [87]

Getty Images vs. Stability AI

En enero de 2023, Getty Images inició un proceso legal contra Stability AI en el Tribunal Superior de Inglaterra, alegando una infracción significativa de sus derechos de propiedad intelectual. Getty Images afirma que Stability AI "extrajo" millones de imágenes de los sitios web de Getty sin consentimiento y utilizó estas imágenes para entrenar y desarrollar su modelo de aprendizaje profundo Stable Diffusion. [88] [89]

Los puntos clave de la demanda incluyen:

Se espera que el juicio tenga lugar en el verano de 2025 y tiene implicaciones significativas para la legislación de derechos de autor del Reino Unido y la concesión de licencias de contenido generado por IA.

Licencia

A diferencia de modelos como DALL-E , Stable Diffusion pone a disposición su código fuente , [92] [8] junto con el modelo (pesos preentrenados). Antes de Stable Diffusion 3, aplicaba la licencia Creative ML OpenRAIL-M, una forma de Licencia de IA Responsable (RAIL), al modelo (M). [93] La licencia prohíbe ciertos casos de uso, incluidos el delito, la difamación , el acoso , el doxing , la " explotación ... de menores ", la prestación de asesoramiento médico, la creación automática de obligaciones legales, la producción de pruebas legales y la "discriminación o el daño a individuos o grupos en función de ... el comportamiento social o ... las características personales o de personalidad ... [o] las características o categorías legalmente protegidas ". [94] [95] El usuario posee los derechos de las imágenes de salida generadas y es libre de utilizarlas comercialmente. [96]

Stable Diffusion 3.5 aplica la licencia comunitaria Stability AI permisiva, mientras que las empresas comerciales con ingresos superiores a $1 millón necesitan la licencia Stability AI Enterprise. [97] Al igual que con la licencia OpenRAIL-M, el usuario conserva los derechos sobre las imágenes de salida generadas y es libre de usarlas comercialmente. [1]

Véase también

Referencias

  1. ^ abc "Difusión estable 3.5". Stability AI . Archivado desde el original el 23 de octubre de 2024. Consultado el 23 de octubre de 2024 .
  2. ^ Ryan O'Connor (23 de agosto de 2022). «Cómo ejecutar la difusión estable localmente para generar imágenes». Archivado desde el original el 13 de octubre de 2023. Consultado el 4 de mayo de 2023 .
  3. ^ "Diffuse The Rest - a Hugging Face Space de huggingface". huggingface.co . Archivado desde el original el 5 de septiembre de 2022. Consultado el 5 de septiembre de 2022 .
  4. ^ "La filtración de una presentación de resultados plantea interrogantes sobre la propuesta de Stability AI de Serie A a los inversores". sifted.eu . Archivado desde el original el 29 de junio de 2023 . Consultado el 20 de junio de 2023 .
  5. ^ "Revolucionando la generación de imágenes mediante IA: convirtiendo texto en imágenes". www.lmu.de . Archivado desde el original el 17 de septiembre de 2022 . Consultado el 21 de junio de 2023 .
  6. ^ Mostaque, Emad (2 de noviembre de 2022). "Stable Diffusion surgió del grupo de investigación Machine Vision & Learning (CompVis) @LMU_Muenchen". Twitter . Archivado desde el original el 20 de julio de 2023 . Consultado el 22 de junio de 2023 .
  7. ^ abcd "Anuncio de lanzamiento de Stable Diffusion". Stability.Ai . Archivado desde el original el 5 de septiembre de 2022 . Consultado el 6 de septiembre de 2022 .
  8. ^ abcdefghi «Repositorio de difusión estable en GitHub». CompVis - Grupo de investigación en visión artificial y aprendizaje, LMU Munich. 17 de septiembre de 2022. Archivado desde el original el 18 de enero de 2023. Consultado el 17 de septiembre de 2022 .
  9. ^ "La nueva aplicación revolucionaria: la creación de arte con IA aplastará por completo tu PC". PCWorld . Archivado desde el original el 31 de agosto de 2022 . Consultado el 31 de agosto de 2022 .
  10. ^ abcde Vincent, James (15 de septiembre de 2022). «Cualquiera puede usar este generador de arte de IA, ese es el riesgo». The Verge . Archivado desde el original el 21 de enero de 2023. Consultado el 30 de septiembre de 2022 .
  11. ^ "CompVis/Difusión latente". GitHub .
  12. ^ "Difusión estable 3: artículo de investigación".
  13. ^ "Inicio". Computer Vision & Learning Group . Consultado el 5 de septiembre de 2024 .
  14. ^ abc Rombach; Blattmann; Lorenz; Esser; Ommer (junio de 2022). Síntesis de imágenes de alta resolución con modelos de difusión latente (PDF) . Conferencia internacional sobre visión artificial y reconocimiento de patrones (CVPR). Nueva Orleans, LA. págs. 10684–10695. arXiv : 2112.10752 . Archivado (PDF) del original el 20 de enero de 2023 . Consultado el 17 de septiembre de 2022 .
  15. ^ abcd Alammar, Jay. "La difusión estable ilustrada". jalammar.github.io . Archivado desde el original el 1 de noviembre de 2022 . Consultado el 31 de octubre de 2022 .
  16. ^ David, Foster. "8. Modelos de difusión". Aprendizaje profundo generativo (2.ª ed.). O'Reilly.
  17. ^ Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, Surya Ganguli (12 de marzo de 2015). "Aprendizaje profundo no supervisado utilizando termodinámica de desequilibrio". arXiv : 1503.03585 [cs.LG].{{cite arXiv}}: CS1 maint: varios nombres: lista de autores ( enlace )
  18. ^ "Tuberías de difusión estables". huggingface.co . Archivado desde el original el 25 de junio de 2023. Consultado el 22 de junio de 2023 .
  19. ^ "Generación de texto a imagen con difusión estable y OpenVINO™". openvino.ai . Intel . Consultado el 10 de febrero de 2024 .
  20. ^ abc Podell, Dustin; English, Zion; Lacey, Kyle; Blattmann, Andreas; Dockhorn, Tim; Müller, Jonas; Penna, Joe; Rombach, Robin (4 de julio de 2023). "SDXL: mejora de los modelos de difusión latente para la síntesis de imágenes de alta resolución". arXiv : 2307.01952 [cs.CV].
  21. ^ abc Esser, Patrick; Kulal, Sumith; Blattmann, Andreas; Entezari, Rahim; Müller, Jonas; Saini, Harry; Levi, Yam; Lorenz, Dominik; Sauer, Axel (5 de marzo de 2024), Transformadores de flujo rectificados de escalado para síntesis de imágenes de alta resolución , arXiv : 2403.03206
  22. ^ ab Liu, Xingchao; Gong, Chengyue; Liu, Qiang (7 de septiembre de 2022), Flujo recto y rápido: aprender a generar y transferir datos con flujo rectificado , arXiv : 2209.03003
  23. ^ ab "Flujo rectificado — Flujo rectificado". www.cs.utexas.edu . Consultado el 6 de marzo de 2024 .
  24. ^ abcde Baio, Andy (30 de agosto de 2022). "Explorando 12 millones de los 2.300 millones de imágenes utilizadas para entrenar el generador de imágenes de Stable Diffusion". Waxy.org . Archivado desde el original el 20 de enero de 2023. Consultado el 2 de noviembre de 2022 .
  25. ^ "Este artista está dominando el arte generado por IA. Y no está contento con ello". MIT Technology Review . Archivado desde el original el 14 de enero de 2023. Consultado el 2 de noviembre de 2022 .
  26. ^ ab Brunner, Katharina; Harlan, Elisa (7 de julio de 2023). «Todos somos materia prima para la IA». Bayerischer Rundfunk (BR). Archivado desde el original el 12 de septiembre de 2023. Consultado el 12 de septiembre de 2023 .
  27. ^ Schuhmann, Christoph (2 de noviembre de 2022), CLIP+MLP Aesthetic Score Predictor, archivado del original el 8 de junio de 2023 , consultado el 2 de noviembre de 2022
  28. ^ "LAION-Estética | LAION". laion.ai . Archivado desde el original el 26 de agosto de 2022 . Consultado el 2 de septiembre de 2022 .
  29. ^ abc Ho, Jonathan; Salimans, Tim (25 de julio de 2022). "Guía de difusión sin clasificadores". arXiv : 2207.12598 [cs.LG].
  30. ^ Mostaque, Emad (28 de agosto de 2022). «Costo de construcción». Twitter . Archivado desde el original el 6 de septiembre de 2022 . Consultado el 6 de septiembre de 2022 .
  31. ^ abc "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co . Archivado desde el original el 11 de enero de 2023 . Consultado el 2 de noviembre de 2022 .
  32. ^ Wiggers, Kyle (12 de agosto de 2022). "Una startup quiere democratizar la tecnología detrás de DALL-E 2, sin importar las consecuencias". TechCrunch . Archivado desde el original el 19 de enero de 2023. Consultado el 2 de noviembre de 2022 .
  33. ^ emad_9608 (19 de abril de 2024). "10 m es lo correcto". r/StableDiffusion . Consultado el 25 de abril de 2024 .{{cite web}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
  34. ^ abcde "Difusión estable con difusores 🧨". huggingface.co . Archivado desde el original el 17 de enero de 2023 . Consultado el 31 de octubre de 2022 .
  35. ^ abc "Lanzamiento de Stable Diffusion 2.0". stability.ai . Archivado desde el original el 10 de diciembre de 2022.
  36. ^ "LAION". laion.ai . Archivado desde el original el 16 de octubre de 2023 . Consultado el 31 de octubre de 2022 .
  37. ^ "Generación de imágenes con difusión estable". Blog Paperspace . 24 de agosto de 2022. Archivado desde el original el 31 de octubre de 2022 . Consultado el 31 de octubre de 2022 .
  38. ^ "Anuncio de SDXL 1.0". Stability AI . Archivado desde el original el 26 de julio de 2023 . Consultado el 21 de agosto de 2023 .
  39. ^ Edwards, Benj (27 de julio de 2023). «Stability AI lanza Stable Diffusion XL, su modelo de síntesis de imágenes de próxima generación». Ars Technica . Archivado desde el original el 21 de agosto de 2023. Consultado el 21 de agosto de 2023 .
  40. ^ "hakurei/waifu-diffusion · Hugging Face". huggingface.co . Archivado desde el original el 8 de octubre de 2023 . Consultado el 31 de octubre de 2022 .
  41. ^ Chambon, Pierre; Bluethgen, Christian; Langlotz, Curtis P.; Chaudhari, Akshay (9 de octubre de 2022). "Adaptación de modelos básicos de visión y lenguaje preentrenados a los dominios de las imágenes médicas". arXiv : 2210.04133 [cs.CV].
  42. ^ Seth Forsgren; Hayk Martiros. "Riffusion - Difusión estable para la generación de música en tiempo real". Riffusion . Archivado desde el original el 16 de diciembre de 2022.
  43. ^ Mercurio, Anthony (31 de octubre de 2022), Waifu Diffusion, archivado del original el 31 de octubre de 2022 , consultado el 31 de octubre de 2022
  44. ^ Smith, Ryan. «NVIDIA lanza silenciosamente la GeForce RTX 3080 de 12 GB: más VRAM, más potencia, más dinero». www.anandtech.com . Archivado desde el original el 27 de agosto de 2023. Consultado el 31 de octubre de 2022 .
  45. ^ Dave James (28 de octubre de 2022). "Usé la RTX 4090 durante 8 horas seguidas entrenando Stable Diffusion para pintar como mi tío Hermann". PC Gamer . Archivado desde el original el 9 de noviembre de 2022.
  46. ^ Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2 de agosto de 2022). "Una imagen vale una palabra: personalización de la generación de texto a imagen mediante inversión textual". arXiv : 2208.01618 [cs.CV].
  47. ^ "Mejoras de NovelAI en la difusión estable". NovelAI . 11 de octubre de 2022. Archivado desde el original el 27 de octubre de 2022.
  48. ^ Yuki Yamashita (1 de septiembre de 2022). "愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発". ITmedia Inc. (en japonés). Archivado desde el original el 31 de agosto de 2022.
  49. ^ Meng, Chenlin; Él, Yutong; Canción, Yang; Canción, Jiaming; Wu, Jiajun; Zhu, Jun-Yan; Ermon, Stefano (2 de agosto de 2021). "SDEdit: Síntesis y edición de imágenes guiadas con ecuaciones diferenciales estocásticas". arXiv : 2108.01073 [cs.CV].
  50. ^ abcd «Stable Diffusion web UI». GitHub . 10 de noviembre de 2022. Archivado desde el original el 20 de enero de 2023 . Consultado el 27 de septiembre de 2022 .
  51. ^ invisible-watermark, Shield Mountain, 2 de noviembre de 2022, archivado del original el 18 de octubre de 2022 , consultado el 2 de noviembre de 2022
  52. ^ "herramientas de difusión estable/énfasis en master · JohannesGaessler/herramientas de difusión estable". GitHub . Archivado desde el original el 2 de octubre de 2022 . Consultado el 2 de noviembre de 2022 .
  53. ^ "Actualizaciones de Stable Diffusion v2.1 y DreamStudio del 7 al 22 de diciembre". stability.ai . Archivado desde el original el 10 de diciembre de 2022.
  54. ^ ab Meng, Chenlin; Él, Yutong; Canción, Yang; Canción, Jiaming; Wu, Jiajun; Zhu, Jun-Yan; Ermon, Stefano (4 de enero de 2022). "SDEdit: Síntesis y edición de imágenes guiadas con ecuaciones diferenciales estocásticas". arXiv : 2108.01073 [cs.CV].
  55. ^ ab Luzi, Lorenzo; Siahkoohi, Ali; Mayer, Paul M.; Casco-Rodríguez, Josue; Baraniuk, Richard (21 de octubre de 2022). "Boomerang: muestreo local en variedades de imágenes utilizando modelos de difusión". arXiv : 2210.12100 [cs.CV].
  56. ^ Bühlmann, Matthias (28 de septiembre de 2022). «Compresión de imágenes basada en difusión estable». Medium . Archivado desde el original el 2 de noviembre de 2022. Consultado el 2 de noviembre de 2022 .
  57. ^ Zhang, Lvmin (10 de febrero de 2023). "Adición de control condicional a los modelos de difusión de texto a imagen". arXiv : 2302.05543 [cs.CV].
  58. ^ Edwards, Benj (10 de noviembre de 2022). "¿Difusión estable en tu bolsillo? "Draw Things" trae imágenes de IA al iPhone". Ars Technica . Consultado el 10 de julio de 2024 .
  59. ^ Wendling, Mike (6 de marzo de 2024). "La IA se puede utilizar fácilmente para hacer fotos electorales falsas - informe". bbc.com . Consultado el 10 de julio de 2024 . El CCDH, un grupo de campaña, probó cuatro de las plataformas de IA públicas más grandes: Midjourney, ChatGPT Plus de OpenAI, DreamStudio de Stability.ai y Image Creator de Microsoft.
  60. ^ Wiggers, Kyle (18 de mayo de 2023). "Stability AI abre el código fuente de su estudio de diseño impulsado por IA". TechCrunch . Consultado el 10 de julio de 2024 .
  61. ^ Weatherbed, Jess (17 de mayo de 2023). "Stability AI está publicando el código abierto de su aplicación web DreamStudio". The Verge .
  62. ^ Mann, Tobias (29 de junio de 2024). "Una guía sencilla para la generación de imágenes de IA local con Stable Diffusion y Automatic1111". The Register .
  63. ^ Hachman, Mak. "Fooocus es la forma más sencilla de crear arte con IA en tu PC". PCWorld .
  64. ^ "Flujos de trabajo de ComfyUI y lo que necesita saber". thinkdiffusion.com . Diciembre de 2023 . Consultado el 10 de julio de 2024 .
  65. ^ "ComfyUI". github.com . Consultado el 10 de julio de 2024 .
  66. ^ Huang, Yenkai (10 de mayo de 2024). Motor de composición autorrecursiva latente (tesis de maestría en Ciencias de la Computación). Dartmouth College . Consultado el 10 de julio de 2024 .
  67. ^ "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co . Archivado desde el original el 11 de enero de 2023 . Consultado el 17 de agosto de 2023 .
  68. ^ "CompVis (CompVis)". huggingface.co . 23 de agosto de 2023 . Consultado el 6 de marzo de 2024 .
  69. ^ "runwayml/stable-diffusion-v1-5 · Hugging Face". huggingface.co . Archivado desde el original el 21 de septiembre de 2023 . Consultado el 17 de agosto de 2023 .
  70. ^ ab "stabilityai/stable-diffusion-2 · Hugging Face". huggingface.co . Archivado desde el original el 21 de septiembre de 2023 . Consultado el 17 de agosto de 2023 .
  71. ^ "estabilidadai/difusión-estable-2-base · Hugging Face". huggingface.co . Consultado el 1 de enero de 2024 .
  72. ^ "stabilityai/stable-diffusion-2-1 · Hugging Face". huggingface.co . Archivado desde el original el 21 de septiembre de 2023 . Consultado el 17 de agosto de 2023 .
  73. ^ "stabilityai/stable-diffusion-xl-base-1.0 · Hugging Face". huggingface.co . Archivado desde el original el 8 de octubre de 2023 . Consultado el 17 de agosto de 2023 .
  74. ^ "Anuncio de SDXL 1.0". Stability AI . Consultado el 1 de enero de 2024 .
  75. ^ "stabilityai/sdxl-turbo · Hugging Face". huggingface.co . Consultado el 1 de enero de 2024 .
  76. ^ "Destilación por difusión adversaria". Stability AI . Consultado el 1 de enero de 2024 .
  77. ^ "Difusión estable 3". Stability AI . Consultado el 5 de marzo de 2024 .
  78. ^ Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Goh, Gabriel; Agarwal, Sandhini; Sastry, Girish; Askell, Amanda; Mishkin, Pamela (26 de febrero de 2021). "Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural". arXiv : 2103.00020 [cs.CV].
  79. ^ Rombach, Robin; Blattmann, Andreas; Lorenz, Dominik; Esser, Patrick; Ommer, Björn (2022). "Síntesis de imágenes de alta resolución con modelos de difusión latente". Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones (CVPR) . págs. 10684–10695. arXiv : 2112.10752 .
  80. ^ "LICENCIA.md · stabilityai/stable-diffusion-xl-base-1.0 at main". huggingface.co . 26 de julio de 2023 . Consultado el 1 de enero de 2024 .
  81. ^ Heikkilä, Melissa (16 de septiembre de 2022). «Este artista está dominando el arte generado por IA. Y no está contento con ello». MIT Technology Review . Archivado desde el original el 14 de enero de 2023. Consultado el 26 de septiembre de 2022 .
  82. ^ ab Ryo Shimizu (26 de agosto de 2022). "Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由". Business Insider Japón (en japonés). Archivado desde el original el 10 de diciembre de 2022 . Consultado el 4 de octubre de 2022 .
  83. ^ Cai, Kenrick. "La startup detrás del generador de imágenes de IA Stable Diffusion está en conversaciones para recaudar fondos por una valoración de hasta mil millones de dólares". Forbes . Archivado desde el original el 30 de septiembre de 2023 . Consultado el 31 de octubre de 2022 .
  84. ^ "Se expone el comercio ilegal de imágenes de abuso sexual infantil realizadas por IA". BBC News . 27 de junio de 2023. Archivado desde el original el 21 de septiembre de 2023 . Consultado el 26 de septiembre de 2023 .
  85. ^ Maiberg, Emanuel (11 de junio de 2024). "Los piratas informáticos atacan a los usuarios de IA con una herramienta de difusión estable maliciosa en GitHub para protestar contra el 'robo de arte'" . 404 Media . Consultado el 14 de junio de 2024 .
  86. ^ Vincent, James (16 de enero de 2023). «Las herramientas de arte de IA Stable Diffusion y Midjourney, objeto de una demanda por derechos de autor». The Verge . Archivado desde el original el 9 de marzo de 2023. Consultado el 16 de enero de 2023 .
  87. ^ Brittain, Blake (19 de julio de 2023). «Un juez estadounidense encuentra fallos en la demanda de los artistas contra las empresas de inteligencia artificial». Reuters . Archivado desde el original el 6 de septiembre de 2023. Consultado el 6 de agosto de 2023 .
  88. ^ Goosens, Sophia (28 de febrero de 2024). "Getty Images vs Stability AI: las implicaciones para la legislación sobre derechos de autor y licencias del Reino Unido".
  89. ^ Gill, Dennis (11 de diciembre de 2023). "Getty Images v Stability AI: las reclamaciones por derechos de autor pueden proceder a juicio".
  90. ^ Goosens, Sophia (28 de febrero de 2024). "El caso Getty v. Stability AI llega a juicio en el Reino Unido: lo que hemos aprendido".
  91. ^ ab Hill, Charlotte (16 de febrero de 2024). "La IA generativa en los tribunales: Getty Images vs. Stability AI".
  92. ^ "Lanzamiento público de difusión estable". Stability.Ai . Archivado desde el original el 30 de agosto de 2022 . Consultado el 31 de agosto de 2022 .
  93. ^ "De RAIL a Open RAIL: Topologías de licencias RAIL". Responsible AI Licenses (RAIL) . 18 de agosto de 2022. Archivado desde el original el 27 de julio de 2023. Consultado el 20 de febrero de 2023 .
  94. ^ "Esté preparado o no, se avecinan deepfakes masivos de videos". The Washington Post . 30 de agosto de 2022. Archivado desde el original el 31 de agosto de 2022 . Consultado el 31 de agosto de 2022 .
  95. ^ "Licencia: un espacio para abrazar la cara de CompVis". huggingface.co . Archivado desde el original el 4 de septiembre de 2022 . Consultado el 5 de septiembre de 2022 .
  96. ^ Katsuo Ishida (26 de agosto de 2022). "言葉で指示した画像を凄いAIが描き出す「Difusión estable」 ~画像は商用利用も可能". Impress Corporation (en japonés). Archivado desde el original el 14 de noviembre de 2022 . Consultado el 4 de octubre de 2022 .
  97. ^ "Licencia comunitaria". Stability AI . 5 de julio de 2024 . Consultado el 23 de octubre de 2024 .

Enlaces externos