Difusión estable

Stable Diffusion es un modelo de texto a imagen de aprendizaje profundo lanzado en 2022 basado en técnicas de difusión . Se considera parte del actual auge de la IA .

Se utiliza principalmente para generar imágenes detalladas condicionadas a descripciones de texto, aunque también se puede aplicar a otras tareas como pintar , pintar y generar traducciones de imagen a imagen guiadas por un mensaje de texto . ^[3] En su desarrollo participaron investigadores del Grupo CompVis de la Universidad Ludwig Maximilian de Munich y Runway con una donación computacional de Stability AI y datos de entrenamiento de organizaciones sin fines de lucro. ^[4]^[5]^[6]^[7]

La difusión estable es un modelo de difusión latente , una especie de red neuronal artificial generativa profunda . Su código y pesos de modelo han sido de código abierto , ^[8] y puede ejecutarse en la mayoría de hardware de consumo equipado con una GPU modesta con al menos 4 GB de VRAM . Esto marcó un cambio con respecto a los modelos propietarios anteriores de conversión de texto a imagen, como DALL-E y Midjourney , a los que solo se podía acceder a través de servicios en la nube . ^[9]^[10]

Desarrollo

El desarrollo de Stable Diffusion fue financiado y moldeado por la nueva empresa Stability AI . ^[10]^[11]^[12]^[13] La licencia técnica para el modelo fue emitida por el grupo CompVis de la Universidad Ludwig Maximilian de Munich. ^[10] El desarrollo fue dirigido por Patrick Esser de Runway y Robin Rombach de CompVis, quienes se encontraban entre los investigadores que habían inventado anteriormente la arquitectura del modelo de difusión latente utilizada por Stable Diffusion. ^[7] Stability AI también dio crédito a EleutherAI y LAION (una organización sin fines de lucro alemana que reunió el conjunto de datos en el que se entrenó Stable Diffusion) como partidarios del proyecto. ^[7]

En octubre de 2022, Stability AI recaudó 101 millones de dólares en una ronda liderada por Lightspeed Venture Partners y Coatue Management . ^[14]

Tecnología

Arquitectura

Stable Diffusion utiliza una especie de modelo de difusión (DM), llamado modelo de difusión latente (LDM) desarrollado por el grupo CompVis en LMU Munich . ^[15]^[8] Introducidos en 2015, los modelos de difusión se entrenan con el objetivo de eliminar aplicaciones sucesivas de ruido gaussiano en imágenes de entrenamiento, que pueden considerarse como una secuencia de codificadores automáticos de eliminación de ruido . Stable Diffusion consta de 3 partes: el codificador automático variacional (VAE), U-Net y un codificador de texto opcional. ^[16] El codificador VAE comprime la imagen desde el espacio de píxeles a un espacio latente dimensional más pequeño , capturando un significado semántico más fundamental de la imagen. ^[15] El ruido gaussiano se aplica iterativamente a la representación latente comprimida durante la difusión directa. ^[16] El bloque U-Net, compuesto por una columna vertebral ResNet , elimina el ruido de la salida de la difusión directa hacia atrás para obtener una representación latente. Finalmente, el decodificador VAE genera la imagen final convirtiendo la representación nuevamente en espacio de píxeles. ^[dieciséis]

El paso de eliminación de ruido se puede condicionar de manera flexible a una cadena de texto, una imagen u otra modalidad. Los datos de acondicionamiento codificados se exponen a U-Nets de eliminación de ruido a través de un mecanismo de atención cruzada . ^[16] Para acondicionar el texto, se utiliza el codificador de texto fijo y previamente entrenado CLIP ViT-L/14 para transformar indicaciones de texto en un espacio de incrustación. ^[8] Los investigadores señalan una mayor eficiencia computacional para el entrenamiento y la generación como una ventaja de los LDM. ^[7]^[15]

Con 860 millones de parámetros en U-Net y 123 millones en el codificador de texto, Stable Diffusion se considera relativamente liviano según los estándares de 2022 y, a diferencia de otros modelos de difusión, puede ejecutarse en GPU de consumo ^[17] e incluso en CPU , solo si se usa. la versión OpenVINO de Stable Diffusion. ^[18]

SDXL

La versión XL usa la misma arquitectura, ^[19] excepto que es más grande: una red troncal UNet más grande, un contexto de atención cruzada más grande, dos codificadores de texto en lugar de uno y está entrenado en múltiples relaciones de aspecto (no solo la relación de aspecto cuadrada como las versiones anteriores).

El SD XL Refiner, lanzado al mismo tiempo, tiene la misma arquitectura que SD XL, pero fue entrenado para agregar detalles finos a imágenes preexistentes mediante img2img condicional de texto.

SD 3.0

La versión 3.0 ^[20] cambia completamente la columna vertebral. No es un UNet, sino un Transformador de Flujo Rectificado , que implementa el método de flujo rectificado ^[21]^[22] con un Transformador .

La arquitectura Transformer utilizada para SD 3.0 tiene tres "pistas", para codificación de texto original, codificación de texto transformado y codificación de imágenes (en espacio latente). La codificación de texto transformado y la codificación de imágenes se mezclan durante cada bloque transformador.

La arquitectura se denomina "transformador de difusión multimodal (MMDiT), donde "multimodal" significa que mezcla codificaciones de texto e imágenes dentro de sus operaciones, lo cual es diferente de versiones anteriores de DiT donde la codificación de texto afecta la codificación de imágenes, pero no al revés. .

Datos de entrenamiento

Stable Diffusion se entrenó con pares de imágenes y leyendas tomadas de LAION-5B, un conjunto de datos disponible públicamente derivado de datos de rastreo común extraídos de la web, donde se clasificaron 5 mil millones de pares de imágenes y texto según el idioma y se filtraron en conjuntos de datos separados por resolución. una probabilidad prevista de contener una marca de agua y una puntuación "estética" prevista (por ejemplo, calidad visual subjetiva). ^[23] El conjunto de datos fue creado por LAION , una organización alemana sin fines de lucro que recibe financiación de Stability AI. ^[23]^[24] El modelo de Difusión Estable se entrenó en tres subconjuntos de LAION-5B: laion2B-en, laion-high-solving y laion-aesthetics v2 5+. ^[23] Un análisis de terceros de los datos de entrenamiento del modelo identificó que de un subconjunto más pequeño de 12 millones de imágenes tomadas del conjunto de datos más amplio original utilizado, aproximadamente el 47% del tamaño de la muestra de imágenes provino de 100 dominios diferentes, con Pinterest tomando representan el 8,5% del subconjunto, seguidos por sitios web como WordPress , Blogspot , Flickr , DeviantArt y Wikimedia Commons . ^{[ cita necesaria ]} Una investigación de Bayerischer Rundfunk mostró que los conjuntos de datos de LAION, alojados en Hugging Face, contienen grandes cantidades de datos privados y confidenciales. ^[25]

Procedimientos de formación

El modelo se entrenó inicialmente en los subconjuntos de alta resolución laion2B-en y laion-, y las últimas rondas de entrenamiento se realizaron en LAION-Aesthetics v2 5+, un subconjunto de 600 millones de imágenes subtituladas que LAION-Aesthetics Predictor V2 predijo que los humanos, en promedio, darían una puntuación de al menos 5 sobre 10 cuando se les pidiera que calificaran cuánto les gustaban. ^[26]^[23]^[27] El subconjunto LAION-Aesthetics v2 5+ también excluyó imágenes de baja resolución e imágenes que LAION-5B-WatermarkDetection identificó como portadoras de una marca de agua con más del 80% de probabilidad. ^[23] Las rondas finales de capacitación también redujeron el 10 % del acondicionamiento del texto para mejorar la orientación de difusión sin clasificador. ^[28]

El modelo se entrenó utilizando 256 GPU Nvidia A100 en Amazon Web Services para un total de 150 000 horas de GPU, a un costo de 600 000 dólares. ^[29]^[30]^[31]

Limitaciones

La difusión estable tiene problemas de degradación e imprecisiones en ciertos escenarios. Las versiones iniciales del modelo se entrenaron en un conjunto de datos que consta de imágenes con resolución de 512 × 512, lo que significa que la calidad de las imágenes generadas se degrada notablemente cuando las especificaciones del usuario se desvían de su resolución "esperada" de 512 × 512; ^[32] la actualización de la versión 2.0 del modelo Stable Diffusion introdujo posteriormente la capacidad de generar imágenes de forma nativa con una resolución de 768 × 768. ^[33] Otro desafío es generar extremidades humanas debido a la mala calidad de los datos de las extremidades en la base de datos LAION. ^[34] El modelo no está suficientemente capacitado para comprender las extremidades y los rostros humanos debido a la falta de características representativas en la base de datos, y pedirle al modelo que genere imágenes de ese tipo puede confundirlo. ^[35] La versión 1.0 de Stable Diffusion XL (SDXL), lanzada en julio de 2023, introdujo una resolución nativa de 1024x1024 y una generación mejorada de extremidades y texto. ^[36]^[37]

La accesibilidad para desarrolladores individuales también puede ser un problema. Para personalizar el modelo para nuevos casos de uso que no están incluidos en el conjunto de datos, como generar personajes de anime ("difusión waifu"), ^[38] se requieren nuevos datos y capacitación adicional. Se han utilizado adaptaciones perfeccionadas de Stable Diffusion creadas mediante reentrenamiento adicional para una variedad de casos de uso diferentes, desde imágenes médicas ^[39] hasta música generada algorítmicamente . ^[40] Sin embargo, este proceso de ajuste es sensible a la calidad de los nuevos datos; Las imágenes de baja resolución o resoluciones diferentes a las de los datos originales no solo pueden no aprender la nueva tarea, sino que degradan el rendimiento general del modelo. Incluso cuando el modelo se entrena adicionalmente con imágenes de alta calidad, a las personas les resulta difícil ejecutar modelos en electrónica de consumo. Por ejemplo, el proceso de entrenamiento para waifu-difusión requiere un mínimo de 30 GB de VRAM , ^[41] lo que excede el recurso habitual proporcionado en GPU de consumo como la serie GeForce 30 de Nvidia , que tiene sólo alrededor de 12 GB. ^[42]

Los creadores de Stable Diffusion reconocen el potencial de sesgo algorítmico , ya que el modelo se entrenó principalmente con imágenes con descripciones en inglés. ^[30] Como resultado, las imágenes generadas refuerzan los prejuicios sociales y son desde una perspectiva occidental, ya que los creadores señalan que el modelo carece de datos de otras comunidades y culturas. El modelo proporciona resultados más precisos para las indicaciones escritas en inglés en comparación con las escritas en otros idiomas, siendo las culturas occidental o blanca a menudo la representación predeterminada. ^[30]

Ajuste fino del usuario final

Para abordar las limitaciones de la capacitación inicial del modelo, los usuarios finales pueden optar por implementar capacitación adicional para ajustar los resultados de generación para que coincidan con casos de uso más específicos, un proceso también conocido como personalización . Hay tres métodos en los que se puede aplicar un ajuste fino accesible al usuario a un punto de control del modelo de Difusión Estable:

Se puede entrenar una "incrustación" a partir de una colección de imágenes proporcionadas por el usuario y permite que el modelo genere imágenes visualmente similares siempre que se utilice el nombre de la incrustación dentro de un mensaje de generación. ^[43] Las incrustaciones se basan en el concepto de "inversión textual" desarrollado por investigadores de la Universidad de Tel Aviv en 2022 con el apoyo de Nvidia , donde las representaciones vectoriales de tokens específicos utilizados por el codificador de texto del modelo están vinculadas a nuevas pseudopalabras. Las incrustaciones se pueden utilizar para reducir los sesgos dentro del modelo original o imitar estilos visuales. ^[44]
Una "hiperred" es una pequeña red neuronal previamente entrenada que se aplica a varios puntos dentro de una red neuronal más grande y se refiere a la técnica creada por el desarrollador de NovelAI Kurumuz en 2021, originalmente destinada a modelos transformadores de generación de texto . Las hiperredes dirigen los resultados hacia una dirección particular, permitiendo que los modelos basados en Difusión Estable imiten el estilo artístico de artistas específicos, incluso si el modelo original no reconoce al artista; procesan la imagen encontrando áreas clave de importancia, como el cabello y los ojos, y luego parchean estas áreas en el espacio latente secundario. ^[45]
DreamBooth es un modelo de generación de aprendizaje profundo desarrollado por investigadores de Google Research y la Universidad de Boston en 2022 que puede ajustar el modelo para generar resultados precisos y personalizados que representen un tema específico, luego del entrenamiento mediante un conjunto de imágenes que representan el tema. ^[46]

Capacidades

El modelo Stable Diffusion admite la capacidad de generar nuevas imágenes desde cero mediante el uso de un mensaje de texto que describe los elementos que se incluirán u omitirán en la salida. ^[8] El modelo puede volver a dibujar las imágenes existentes para incorporar nuevos elementos descritos mediante un mensaje de texto (un proceso conocido como "síntesis de imágenes guiadas" ^[47] ) a través de su mecanismo de eliminación de ruido de difusión. ^[8] Además, el modelo también permite el uso de indicaciones para alterar parcialmente imágenes existentes mediante pintura interna y externa, cuando se usa con una interfaz de usuario adecuada que admita dichas características, de las cuales existen numerosas implementaciones diferentes de código abierto. ^[48]

Se recomienda ejecutar Stable Diffusion con 10 GB o más de VRAM; sin embargo, los usuarios con menos VRAM pueden optar por cargar los pesos con precisión float16 en lugar del float32 predeterminado para compensar el rendimiento del modelo con un menor uso de VRAM. ^[32]

Generación de texto a imagen.

Demostración del efecto de las indicaciones negativas en la generación de imágenes.

Arriba : sin mensaje negativo
Centro : "árboles verdes"
Abajo : "piedras redondas, rocas redondas"

El script de muestreo de texto a imagen dentro de Stable Diffusion, conocido como "txt2img", consume un mensaje de texto además de una variedad de parámetros de opciones que cubren tipos de muestreo, dimensiones de la imagen de salida y valores iniciales. El script genera un archivo de imagen basado en la interpretación del modelo del mensaje. ^[8] Las imágenes generadas están etiquetadas con una marca de agua digital invisible para permitir a los usuarios identificar una imagen generada por Stable Diffusion, ^[8] aunque esta marca de agua pierde su eficacia si se cambia el tamaño de la imagen o se gira. ^[49]

Cada generación de txt2img implicará un valor inicial específico que afecta la imagen de salida. Los usuarios pueden optar por aleatorizar la semilla para explorar diferentes resultados generados, o usar la misma semilla para obtener la misma salida de imagen que una imagen generada previamente. ^[32] Los usuarios también pueden ajustar el número de pasos de inferencia para el muestreador; un valor más alto requiere más tiempo; sin embargo, un valor más pequeño puede provocar defectos visuales. ^[32] Otra opción configurable, el valor de escala de guía sin clasificador, permite al usuario ajustar qué tan cerca se adhiere la imagen de salida al mensaje. ^[28] Los casos de uso más experimentales pueden optar por un valor de escala más bajo, mientras que los casos de uso que apuntan a resultados más específicos pueden utilizar un valor más alto. ^[32]

Las implementaciones front-end de Stable Diffusion proporcionan funciones adicionales de text2img , que permiten a los usuarios modificar el peso dado a partes específicas del mensaje de texto. Los marcadores de énfasis permiten a los usuarios agregar o reducir el énfasis de las palabras clave encerrándolas entre corchetes. ^[50] Un método alternativo para ajustar el peso a partes del mensaje son los "indicadores negativos". Las indicaciones negativas son una característica incluida en algunas implementaciones de front-end, incluido el propio servicio en la nube DreamStudio de Stability AI, y permiten al usuario especificar indicaciones que el modelo debe evitar durante la generación de imágenes. Las indicaciones especificadas pueden ser características de imagen no deseadas que, de otro modo, estarían presentes en las salidas de imagen debido a las indicaciones positivas proporcionadas por el usuario, o debido a cómo se entrenó originalmente el modelo, siendo las manos humanas destrozadas un ejemplo común. ^[48]^[51]

Modificación de imagen

Demostración de la modificación img2img

Izquierda : Imagen original creada con Stable Diffusion 1.5
Derecha : Imagen modificada creada con Stable Diffusion XL 1.0

Stable Diffusion también incluye otro script de muestreo, "img2img", que consume un mensaje de texto, una ruta a una imagen existente y un valor de intensidad entre 0,0 y 1,0. El script genera una nueva imagen basada en la imagen original que también incluye elementos proporcionados en el mensaje de texto. El valor de intensidad indica la cantidad de ruido agregado a la imagen de salida. Un valor de intensidad más alto produce más variación dentro de la imagen, pero puede producir una imagen que no sea semánticamente consistente con el mensaje proporcionado. ^[8]

La capacidad de img2img para agregar ruido a la imagen original la hace potencialmente útil para la anonimización y el aumento de datos , en los que las características visuales de los datos de la imagen se cambian y se anonimizan. ^[52] El mismo proceso también puede ser útil para mejorar la escala de una imagen, en la que se aumenta la resolución de una imagen y se pueden agregar más detalles a la imagen. ^[52] Además, se ha experimentado con la difusión estable como herramienta para la compresión de imágenes. En comparación con JPEG y WebP , los métodos recientes utilizados para la compresión de imágenes en Stable Diffusion enfrentan limitaciones a la hora de preservar texto y caras pequeñas. ^[53]

Numerosas implementaciones de front-end del modelo Stable Diffusion ofrecen casos de uso adicionales para la modificación de imágenes a través de img2img. Inpainting implica modificar selectivamente una parte de una imagen existente delineada por una máscara de capa proporcionada por el usuario , que llena el espacio enmascarado con contenido recién generado según el mensaje proporcionado. ^[48] Stability AI creó un modelo dedicado específicamente ajustado para casos de uso de pintura junto con el lanzamiento de Stable Diffusion 2.0. ^[33] Por el contrario, pintar extiende una imagen más allá de sus dimensiones originales, llenando el espacio previamente vacío con contenido generado en función del mensaje proporcionado. ^[48]

Se introdujo un modelo guiado en profundidad, denominado "profundidad2img", con el lanzamiento de Stable Diffusion 2.0 el 24 de noviembre de 2022; este modelo infiere la profundidad de la imagen de entrada proporcionada y genera una nueva imagen de salida basada tanto en el mensaje de texto como en la información de profundidad, lo que permite mantener la coherencia y la profundidad de la imagen de entrada original en la salida generada. ^[33]

ControlNet

ControlNet ^[54] es una arquitectura de red neuronal diseñada para gestionar modelos de difusión incorporando condiciones adicionales. Duplica los pesos de los bloques de la red neuronal en una copia "bloqueada" y una copia "entrenable". La copia "entrenable" aprende la condición deseada, mientras que la copia "bloqueada" conserva el modelo original. Este enfoque garantiza que el entrenamiento con pequeños conjuntos de datos de pares de imágenes no comprometa la integridad de los modelos de difusión listos para producción. La "convolución cero" es una convolución 1×1 con peso y sesgo inicializados a cero. Antes del entrenamiento, todas las convoluciones cero producen una salida cero, lo que evita cualquier distorsión causada por ControlNet. Ninguna capa se entrena desde cero; El proceso aún se está afinando, manteniendo seguro el modelo original. Este método permite la formación en dispositivos de pequeña escala o incluso personales.

Lanzamientos

Documentos clave

Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural (2021). ^[66] Este artículo describe el método CLIP para entrenar codificadores de texto, que convierten texto en vectores de punto flotante. El modelo de difusión utiliza estas codificaciones de texto para crear imágenes.
SDEdit: Síntesis y edición de imágenes guiadas con ecuaciones diferenciales estocásticas (2021). ^[67] Este artículo describe SDEdit, también conocido como "img2img".
Síntesis de imágenes de alta resolución con modelos de difusión latente (2021, actualizado en 2022). ^[68] Este artículo describe el modelo de difusión latente (LDM). Esta es la columna vertebral de la arquitectura de Difusión Estable.
Guía de difusión sin clasificadores (2022). ^[28] Este artículo describe CFG, que permite que el vector de codificación de texto dirija el modelo de difusión hacia la creación de la imagen descrita por el texto.
SDXL: Mejora de los modelos de difusión latente para la síntesis de imágenes de alta resolución (2023). ^[19] Describe SDXL.
Flujo recto y rápido: aprender a generar y transferir datos con flujo rectificado (2022). ^[21]^[22] Describe el flujo rectificado, que se utiliza para la arquitectura troncal de SD 3.0.
Escalado de transformadores de flujo rectificados para síntesis de imágenes de alta resolución (2024). ^[20] Describe SD 3.0.

Costo de capacitación

SD 2.0: 0,2 millones de horas en A100 (40 GB). ^[58]

Uso y controversia

Stable Diffusion no reclama derechos sobre las imágenes generadas y otorga libremente a los usuarios los derechos de uso de cualquier imagen generada a partir del modelo, siempre que el contenido de la imagen no sea ilegal o perjudicial para las personas. ^[69]

Las imágenes con las que se entrenó Stable Diffusion se han filtrado sin intervención humana, lo que ha provocado que aparezcan algunas imágenes dañinas y grandes cantidades de información privada y confidencial en los datos de entrenamiento. ^[25]

Como los estilos y composiciones visuales no están sujetos a derechos de autor, a menudo se interpreta que no se debe considerar que los usuarios de Stable Diffusion que generan imágenes de obras de arte infringen los derechos de autor de obras visualmente similares. ^[70] Sin embargo, las personas representadas en las imágenes generadas pueden estar protegidas por derechos de personalidad si se utiliza su imagen, ^[70] y la propiedad intelectual, como los logotipos de marcas reconocibles, siguen estando protegidas por derechos de autor. No obstante, los artistas visuales han expresado su preocupación de que el uso generalizado de software de síntesis de imágenes como Stable Diffusion pueda eventualmente llevar a que los artistas humanos, junto con los fotógrafos, modelos, directores de fotografía y actores, pierdan gradualmente viabilidad comercial frente a los competidores basados en la IA. ^[13]

Stable Diffusion es notablemente más permisivo en los tipos de contenido que los usuarios pueden generar, como imágenes violentas o sexualmente explícitas, en comparación con otros productos comerciales basados en IA generativa. ^[71] Al abordar las preocupaciones de que el modelo pueda usarse con fines abusivos, el director ejecutivo de Stability AI, Emad Mostaque , sostiene que "[es] responsabilidad de las personas si son éticas, morales y legales en la forma en que operan este "tecnología", ^[10] y que poner las capacidades de Difusión Estable en manos del público daría como resultado que la tecnología proporcionara un beneficio neto, a pesar de las posibles consecuencias negativas. ^[10] Además, Mostaque sostiene que la intención detrás de la disponibilidad abierta de Stable Diffusion es poner fin al control y dominio corporativo sobre dichas tecnologías, que anteriormente solo habían desarrollado sistemas cerrados de IA para la síntesis de imágenes. ^[10]^[71] Esto se refleja en el hecho de que cualquier restricción que Stability AI imponga al contenido que los usuarios puedan generar se puede eludir fácilmente debido a la disponibilidad del código fuente. ^[72]

Ha surgido una controversia en torno a las representaciones fotorrealistas sexualizadas de personajes menores de edad, debido a que este tipo de imágenes generadas por Stable Diffusion se comparten en sitios web como Pixiv . ^[73]

Litigio

En enero de 2023, tres artistas, Sarah Andersen , Kelly McKernan y Karla Ortiz, presentaron una demanda por infracción de derechos de autor contra Stability AI, Midjourney y DeviantArt , alegando que estas empresas han infringido los derechos de millones de artistas al entrenar herramientas de IA en cinco Millones de imágenes extraídas de la web sin el consentimiento de los artistas originales. ^[74] El mismo mes, Stability AI también fue demandada por Getty Images por usar sus imágenes en los datos de entrenamiento. ^[12]

En julio de 2023, el juez de distrito estadounidense William Orrick se inclinó por desestimar la mayor parte de la demanda presentada por Andersen, McKernan y Ortiz, pero les permitió presentar una nueva denuncia. ^[75]

Licencia

A diferencia de modelos como DALL-E , Stable Diffusion pone a disposición su código fuente , ^[76]^[8] junto con el modelo (pesos previamente entrenados). Aplica la licencia Creative ML OpenRAIL-M, una forma de Licencia de IA Responsable (RAIL), al modelo (M). ^[77] La licencia prohíbe ciertos casos de uso, incluidos delitos, difamación , acoso , doxing , "explotación... de menores", dar asesoramiento médico, crear automáticamente obligaciones legales, producir pruebas legales y "discriminar o dañar a individuos o grupos basándose en sobre... el comportamiento social o... las características personales o de personalidad... [o] las características o categorías legalmente protegidas ". ^[78]^[79] El usuario posee los derechos sobre las imágenes de salida generadas y es libre de utilizarlas comercialmente. ^[80]

Ver también

Referencias

^ "Anuncio de SDXL 1.0". estabilidad.ai . Archivado desde el original el 26 de julio de 2023.
^ Ryan O'Connor (23 de agosto de 2022). "Cómo ejecutar difusión estable localmente para generar imágenes". Archivado desde el original el 13 de octubre de 2023 . Consultado el 4 de mayo de 2023 .
^ "Difunde el resto: un espacio para abrazar la cara de huggingface". abrazandoface.co . Archivado desde el original el 5 de septiembre de 2022 . Consultado el 5 de septiembre de 2022 .
^ "La plataforma filtrada plantea dudas sobre el discurso de la Serie A de Stability AI a los inversores". tamizado.eu . Archivado desde el original el 29 de junio de 2023 . Consultado el 20 de junio de 2023 .
^ "Revolucionar la generación de imágenes mediante IA: convertir texto en imágenes". www.lmu.de. Archivado desde el original el 17 de septiembre de 2022 . Consultado el 21 de junio de 2023 .
^ Mostaque, Emad (2 de noviembre de 2022). "La difusión estable provino del grupo de investigación de aprendizaje y visión artificial (CompVis) @LMU_Muenchen". Gorjeo . Archivado desde el original el 20 de julio de 2023 . Consultado el 22 de junio de 2023 .
^ abcd "Anuncio de lanzamiento de difusión estable". Estabilidad.Ai . Archivado desde el original el 5 de septiembre de 2022 . Consultado el 6 de septiembre de 2022 .
^ abcdefghi "Repositorio de difusión estable en GitHub". CompVis: Grupo de investigación sobre aprendizaje y visión artificial, LMU Munich. 17 de septiembre de 2022. Archivado desde el original el 18 de enero de 2023 . Consultado el 17 de septiembre de 2022 .
^ "La nueva aplicación excelente: crear arte con IA aplastará por completo tu PC". Mundo PC . Archivado desde el original el 31 de agosto de 2022 . Consultado el 31 de agosto de 2022 .
^ abcdef Vincent, James (15 de septiembre de 2022). "Cualquiera puede utilizar este generador de arte con IA; ese es el riesgo". El borde . Archivado desde el original el 21 de enero de 2023 . Consultado el 30 de septiembre de 2022 .
^ "El fundador de AI que se atribuye el éxito de Stable Diffusion tiene un historial de exageración". www.forbes.com . Archivado desde el original el 21 de junio de 2023 . Consultado el 20 de junio de 2023 .
^ ab Korn, Jennifer (17 de enero de 2023). "Getty Images demanda a los creadores de la popular herramienta artística de inteligencia artificial por supuestamente robar fotos". CNN . Archivado desde el original el 1 de marzo de 2023 . Consultado el 22 de enero de 2023 .
^ ab Heikkilä, Melissa (16 de septiembre de 2022). "Este artista domina el arte generado por IA. Y no está contento con eso". Revisión de tecnología del MIT . Archivado desde el original el 14 de enero de 2023 . Consultado el 26 de septiembre de 2022 .
^ Wiggers, Kyle (17 de octubre de 2022). "Stability AI, la startup detrás de Stable Diffusion, recauda 101 millones de dólares". Crunch tecnológico . Archivado desde el original el 17 de octubre de 2022 . Consultado el 17 de octubre de 2022 .
^ abc Rombach; Blattmann; Lorenzo; Esser; Ommer (junio de 2022). Síntesis de imágenes de alta resolución con modelos de difusión latente (PDF) . Conferencia Internacional sobre Visión por Computadora y Reconocimiento de Patrones (CVPR). Nueva Orleans, Luisiana. págs. 10684-10695. arXiv : 2112.10752 . Archivado (PDF) desde el original el 20 de enero de 2023 . Consultado el 17 de septiembre de 2022 .
^ abcd Alammar, Jay. "La difusión estable ilustrada". jalammar.github.io . Archivado desde el original el 1 de noviembre de 2022 . Consultado el 31 de octubre de 2022 .
^ "Tuberías de difusión estable". abrazandoface.co . Archivado desde el original el 25 de junio de 2023 . Consultado el 22 de junio de 2023 .
^ "Generación de texto a imagen con difusión estable y OpenVINO ™". openvino.ai . Intel . Consultado el 10 de febrero de 2024 .
^ abc Podell, Dustin; Inglés, Sión; Lacey, Kyle; Blattmann, Andreas; Dockhorn, Tim; Müller, Jonas; Peña, Joe; Rombach, Robin (4 de julio de 2023), SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis, doi :10.48550/arXiv.2307.01952 , consultado el 6 de marzo de 2024
^ a b C Esser, Patricio; Kulal, Sumith; Blattmann, Andreas; Entezari, Rahim; Müller, Jonas; Saini, Harry; Leví, ñame; Lorenz, Dominik; Sauer, Axel (5 de marzo de 2024), Escalado de transformadores de flujo rectificados para síntesis de imágenes de alta resolución, doi :10.48550/arXiv.2403.03206 , consultado el 6 de marzo de 2024
^ ab Liu, Xingchao; Gong, Chengyue; Liu, Qiang (7 de septiembre de 2022), Flujo recto y rápido: aprender a generar y transferir datos con flujo rectificado, doi :10.48550/arXiv.2209.03003 , consultado el 6 de marzo de 2024
^ ab "Flujo rectificado - Flujo rectificado". www.cs.utexas.edu . Consultado el 6 de marzo de 2024 .
^ abcde Baio, Andy (30 de agosto de 2022). "Explorando 12 millones de los 2,3 mil millones de imágenes utilizadas para entrenar el generador de imágenes de difusión estable". Waxy.org . Archivado desde el original el 20 de enero de 2023 . Consultado el 2 de noviembre de 2022 .
^ "Este artista domina el arte generado por IA. Y no está contento con eso". Revisión de tecnología del MIT . Archivado desde el original el 14 de enero de 2023 . Consultado el 2 de noviembre de 2022 .
^ ab Brunner, Katharina; Harlan, Elisa (7 de julio de 2023). "Todos somos materia prima para la IA". Bayerischer Rundfunk (BR). Archivado desde el original el 12 de septiembre de 2023 . Consultado el 12 de septiembre de 2023 .
^ Schuhmann, Christoph (2 de noviembre de 2022), CLIP+MLP Aesthetic Score Predictor, archivado desde el original el 8 de junio de 2023 , recuperado 2 de noviembre de 2022
^ "LAION-Estética | LAION". laion.ai . Archivado desde el original el 26 de agosto de 2022 . Consultado el 2 de septiembre de 2022 .
^ a b C Ho, Jonathan; Salimans, Tim (25 de julio de 2022). "Guía de difusión sin clasificadores". arXiv : 2207.12598 [cs.LG].
^ Mostaque, Emad (28 de agosto de 2022). "Costo de construcción". Gorjeo . Archivado desde el original el 6 de septiembre de 2022 . Consultado el 6 de septiembre de 2022 .
^ abc "CompVis/stable-diffusion-v1-4 · Abrazando la cara". abrazandoface.co . Archivado desde el original el 11 de enero de 2023 . Consultado el 2 de noviembre de 2022 .
^ Wiggers, Kyle (12 de agosto de 2022). "Una startup quiere democratizar la tecnología detrás de DALL-E 2, al diablo con las consecuencias". TechCrunch . Archivado desde el original el 19 de enero de 2023 . Consultado el 2 de noviembre de 2022 .
^ abcde "Difusión estable con 🧨 Difusores". abrazandoface.co . Archivado desde el original el 17 de enero de 2023 . Consultado el 31 de octubre de 2022 .
^ abc "Lanzamiento de Difusión estable 2.0". estabilidad.ai . Archivado desde el original el 10 de diciembre de 2022.
^ "LAION". laion.ai . Archivado desde el original el 16 de octubre de 2023 . Consultado el 31 de octubre de 2022 .
^ "Generación de imágenes con Difusión Estable". Blog de espacio de papel . 24 de agosto de 2022. Archivado desde el original el 31 de octubre de 2022 . Consultado el 31 de octubre de 2022 .
^ "Anuncio de SDXL 1.0". Estabilidad IA . Archivado desde el original el 26 de julio de 2023 . Consultado el 21 de agosto de 2023 .
^ Edwards, Benj (27 de julio de 2023). "Stability AI lanza Stable Diffusion XL, su modelo de síntesis de imágenes de próxima generación". Ars Técnica . Archivado desde el original el 21 de agosto de 2023 . Consultado el 21 de agosto de 2023 .
^ "hakurei / waifu-diffusion · Cara abrazada". abrazandoface.co . Archivado desde el original el 8 de octubre de 2023 . Consultado el 31 de octubre de 2022 .
^ Chambon, Pierre; Bluethgen, cristiano; Langlotz, Curtis P.; Chaudhari, Akshay (9 de octubre de 2022). "Adaptación de modelos fundamentales de visión y lenguaje previamente entrenados a dominios de imágenes médicas". arXiv : 2210.04133 [cs.CV].
^ Seth Forsgren; Hayk Mártiros. "Riffusion: difusión estable para la generación de música en tiempo real". Rifusión . Archivado desde el original el 16 de diciembre de 2022.
^ Mercurio, Anthony (31 de octubre de 2022), Waifu Diffusion, archivado desde el original el 31 de octubre de 2022 , recuperado 31 de octubre de 2022
^ Smith, Ryan. "NVIDIA lanza silenciosamente GeForce RTX 3080 de 12 GB: más VRAM, más potencia, más dinero". www.anandtech.com . Archivado desde el original el 27 de agosto de 2023 . Consultado el 31 de octubre de 2022 .
^ Dave James (28 de octubre de 2022). "Golpeé la RTX 4090 durante 8 horas seguidas entrenando Stable Diffusion para pintar como mi tío Hermann". Jugador de PC . Archivado desde el original el 9 de noviembre de 2022.
^ Gal, Rinón; Alaluf, Yuval; Atzmon, Yuval; patashnik, o; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2 de agosto de 2022). "Una imagen vale más que una palabra: personalización de la generación de texto a imagen mediante inversión textual". arXiv : 2208.01618 [cs.CV].
^ "Nuevas mejoras de AI en difusión estable". Novela AI . 11 de octubre de 2022. Archivado desde el original el 27 de octubre de 2022.
^ Yuki Yamashita (1 de septiembre de 2022). "愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ米Googleが開発". ITmedia Inc. (en japonés). Archivado desde el original el 31 de agosto de 2022.
^ Meng, Chenlin; Él, Yutong; Canción, Yang; Canción, Jiaming; Wu, Jiajun; Zhu, Jun-Yan; Ermon, Stefano (2 de agosto de 2021). "SDEdit: Síntesis y edición de imágenes guiadas con ecuaciones diferenciales estocásticas". arXiv : 2108.01073 [cs.CV].
^ abcd "IU web de difusión estable". GitHub . 10 de noviembre de 2022. Archivado desde el original el 20 de enero de 2023 . Consultado el 27 de septiembre de 2022 .
^ marca de agua invisible, Shield Mountain, 2 de noviembre de 2022, archivado desde el original el 18 de octubre de 2022 , recuperado 2 de noviembre de 2022
^ "herramientas-de-difusión-estable/énfasis en el maestro · JohannesGaessler/herramientas-de-difusión-estable". GitHub . Archivado desde el original el 2 de octubre de 2022 . Consultado el 2 de noviembre de 2022 .
^ "Actualizaciones de Stable Diffusion v2.1 y DreamStudio del 7 al 22 de diciembre". estabilidad.ai . Archivado desde el original el 10 de diciembre de 2022.
^ ab Luzi, Lorenzo; Siahkoohi, Ali; Mayer, Paul M.; Casco-Rodríguez, Josue; Baraniuk, Richard (21 de octubre de 2022). "Boomerang: muestreo local en variedades de imágenes utilizando modelos de difusión". arXiv : 2210.12100 [cs.CV].
^ Bühlmann, Matthias (28 de septiembre de 2022). "Compresión de imágenes basada en difusión estable". Medio . Archivado desde el original el 2 de noviembre de 2022 . Consultado el 2 de noviembre de 2022 .
^ Zhang, Lvmin (10 de febrero de 2023). "Agregar control condicional a los modelos de difusión de texto a imagen". arXiv : 2302.05543 [cs.CV].
^ "CompVis/stable-diffusion-v1-4 · Abrazando la cara". abrazandoface.co . Archivado desde el original el 11 de enero de 2023 . Consultado el 17 de agosto de 2023 .
^ "CompVis (CompVis)". abrazandoface.co . 23 de agosto de 2023 . Consultado el 6 de marzo de 2024 .
^ "runwayml/stable-diffusion-v1-5 · Abrazando la cara". abrazandoface.co . Archivado desde el original el 21 de septiembre de 2023 . Consultado el 17 de agosto de 2023 .
^ ab "stabilityai/stable-diffusion-2 · Abrazando la cara". abrazandoface.co . Archivado desde el original el 21 de septiembre de 2023 . Consultado el 17 de agosto de 2023 .
^ "estabilidadai/stable-diffusion-2-base · Abrazando la cara". abrazandoface.co . Consultado el 1 de enero de 2024 .
^ "stabilityai/stable-diffusion-2-1 · Abrazando la cara". abrazandoface.co . Archivado desde el original el 21 de septiembre de 2023 . Consultado el 17 de agosto de 2023 .
^ "stabilityai/stable-diffusion-xl-base-1.0 · Abrazando la cara". abrazandoface.co . Archivado desde el original el 8 de octubre de 2023 . Consultado el 17 de agosto de 2023 .
^ "Anuncio de SDXL 1.0". Estabilidad IA . Consultado el 1 de enero de 2024 .
^ "stabilityai / sdxl-turbo · Abrazando la cara". abrazandoface.co . Consultado el 1 de enero de 2024 .
^ "Destilación por difusión adversaria". Estabilidad IA . Consultado el 1 de enero de 2024 .
^ "Difusión estable 3". Estabilidad IA . Consultado el 5 de marzo de 2024 .
^ Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Vaya, Gabriel; Agarwal, Sandhini; Satry, Girish; Askell, Amanda; Mishkin, Pamela (26 de febrero de 2021), Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural, doi :10.48550/arXiv.2103.00020 , consultado el 6 de marzo de 2024
^ Meng, Chenlin; Él, Yutong; Canción, Yang; Canción, Jiaming; Wu, Jiajun; Zhu, Jun-Yan; Ermon, Stefano (4 de enero de 2022), SDEdit: Síntesis y edición de imágenes guiadas con ecuaciones diferenciales estocásticas, doi :10.48550/arXiv.2108.01073 , consultado el 6 de marzo de 2024
^ Rombach, Robin; Blattmann, Andreas; Lorenz, Dominik; Esser, Patricio; Ommer, Björn (2022). "Síntesis de imágenes de alta resolución con modelos de difusión latente": 10684–10695. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ "LICENCIA.md · estabilidadai/stable-diffusion-xl-base-1.0 en principal". abrazandoface.co . 26 de julio de 2023 . Consultado el 1 de enero de 2024 .
^ ab "高性能画像生成AI「Difusión estable」無料リリース。「kawaii」までも理解し創造する画像生成AI". Medios autómatas (en japonés). 24 de agosto de 2022. Archivado desde el original el 8 de diciembre de 2022 . Consultado el 4 de octubre de 2022 .
^ ab Ryo Shimizu (26 de agosto de 2022). "Midjourneyを超えた？無料の作画AI｢ #StableDiffusion ｣が｢AIを民主化した｣と断言できる理由". Business Insider Japón (en japonés). Archivado desde el original el 10 de diciembre de 2022 . Consultado el 4 de octubre de 2022 .
^ Cai, Kenrick. "La startup detrás del generador de imágenes AI Stable Diffusion está en conversaciones para aumentar una valoración de hasta mil millones de dólares". Forbes . Archivado desde el original el 30 de septiembre de 2023 . Consultado el 31 de octubre de 2022 .
^ "Se expone el comercio ilegal de imágenes de abuso sexual infantil mediante IA". Noticias de la BBC . 27 de junio de 2023. Archivado desde el original el 21 de septiembre de 2023 . Consultado el 26 de septiembre de 2023 .
^ Vincent, James (16 de enero de 2023). "Las herramientas de arte de IA Stable Diffusion y Midjourney son objeto de una demanda por derechos de autor". El borde . Archivado desde el original el 9 de marzo de 2023 . Consultado el 16 de enero de 2023 .
^ Bretaña, Blake (19 de julio de 2023). "Un juez estadounidense encuentra fallas en la demanda de artistas contra empresas de inteligencia artificial". Reuters . Archivado desde el original el 6 de septiembre de 2023 . Consultado el 6 de agosto de 2023 .
^ "Lanzamiento público de difusión estable". Estabilidad.Ai . Archivado desde el original el 30 de agosto de 2022 . Consultado el 31 de agosto de 2022 .
^ "De RAIL a Open RAIL: Topologías de licencias RAIL". Licencias de IA Responsable (RAIL) . 18 de agosto de 2022. Archivado desde el original el 27 de julio de 2023 . Consultado el 20 de febrero de 2023 .
^ "Listos o no, se acercan los deepfakes masivos de vídeos". El Washington Post . 30 de agosto de 2022. Archivado desde el original el 31 de agosto de 2022 . Consultado el 31 de agosto de 2022 .
^ "Licencia: un espacio para abrazar la cara de CompVis". abrazandoface.co . Archivado desde el original el 4 de septiembre de 2022 . Consultado el 5 de septiembre de 2022 .
^ Katsuo Ishida (26 de agosto de 2022). "言葉で指示した画像を凄いAIが描き出す「Difusión estable」～画像は商用利用も可能". Impress Corporation (en japonés). Archivado desde el original el 14 de noviembre de 2022 . Consultado el 4 de octubre de 2022 .

enlaces externos

Wikimedia Commons tiene medios relacionados con la difusión estable .

Demostración de difusión estable
Explicación interactiva de la difusión estable
"Todos somos materia prima para la IA": Investigación sobre datos sensibles y privados en los datos de entrenamiento de Stable Diffusions
"Indicadores negativos en difusión estable"