stringtranslate.com

Modelo de texto a imagen

Una imagen condicionada al mensaje "un astronauta montando a caballo, de Hiroshige ", generada por Stable Diffusion , un modelo de texto a imagen a gran escala lanzado en 2022

Un modelo de texto a imagen es un modelo de aprendizaje automático que toma una descripción en lenguaje natural de entrada y produce una imagen que coincide con esa descripción.

Los modelos de texto a imagen comenzaron a desarrollarse a mediados de la década de 2010, durante los inicios del auge de la IA , como resultado de los avances en redes neuronales profundas . En 2022, se comenzó a considerar el resultado de modelos de texto a imagen de última generación, como DALL-E 2 de OpenAI , Imagen de Google Brain , Stable Diffusion de Stability AI y Midjourney , para acercarse a la calidad de las fotografías reales y el arte dibujado por humanos .

Los modelos de texto a imagen son generalmente modelos de difusión latente , que combinan un modelo de lenguaje , que transforma el texto de entrada en una representación latente , y un modelo de imagen generativa , que produce una imagen condicionada a esa representación. Los modelos más eficaces generalmente se han entrenado con cantidades masivas de datos de imágenes y texto extraídos de la web . [1]

Historia

Antes del surgimiento del aprendizaje profundo , [¿ cuándo? ] los intentos de construir modelos de texto a imagen se limitaban a collages mediante la organización de imágenes de componentes existentes, como las de una base de datos de imágenes prediseñadas . [2] [3]

La tarea inversa, el subtitulado de imágenes , era más manejable, y varios modelos de aprendizaje profundo de subtitulado de imágenes surgieron antes de los primeros modelos de texto a imagen. [4]

El primer modelo moderno de conversión de texto a imagen, alignDRAW, fue presentado en 2015 por investigadores de la Universidad de Toronto . alignDRAW extendió la arquitectura DRAW introducida previamente (que utilizaba un autocodificador variacional recurrente con un mecanismo de atención ) para que estuviera condicionada a secuencias de texto. [4] Las imágenes generadas por alignDRAW tenían una resolución pequeña (32×32 píxeles, obtenidos mediante el cambio de tamaño ) y se consideraban "de baja diversidad". El modelo pudo generalizarse a objetos no representados en los datos de entrenamiento (como un autobús escolar rojo) y manejó apropiadamente indicaciones novedosas como "una señal de stop está volando en cielos azules", mostrando un resultado que no estaba simplemente "memorizando" datos del conjunto de entrenamiento . [4] [5]

Ocho imágenes generadas a partir del texto de aviso "Una señal de stop está volando en un cielo azul" de AlignDRAW (2015). Ampliadas para mostrar los detalles. [6]

En 2016, Reed, Akata, Yan et al. fueron los primeros en utilizar redes generativas adversarias para la tarea de conversión de texto a imagen. [5] [7] Con modelos entrenados en conjuntos de datos estrechos y específicos del dominio, pudieron generar imágenes "visualmente plausibles" de pájaros y flores a partir de leyendas de texto como "un pájaro completamente negro con un pico grueso y redondeado distintivo" . Un modelo entrenado en el conjunto de datos COCO (Objetos comunes en contexto) más diverso produjo imágenes que eran "a la distancia... alentadoras", pero que carecían de coherencia en sus detalles. [5] Los sistemas posteriores incluyen VQGAN-CLIP, [8] XMC-GAN y GauGAN2. [9]

Imágenes generadas por DALL·E 2 (arriba, abril de 2022) y DALL·E 3 (abajo, septiembre de 2023) para el mensaje "Una señal de pare está volando en un cielo azul"

Uno de los primeros modelos de texto a imagen que captó la atención del público en general fue DALL-E de OpenAI , un sistema transformador anunciado en enero de 2021. [10] Un sucesor capaz de generar imágenes más complejas y realistas, DALL-E 2, se presentó en abril de 2022, [11] seguido de Stable Diffusion que se lanzó públicamente en agosto de 2022. [12] En agosto de 2022, la personalización de texto a imagen permite enseñar al modelo un nuevo concepto utilizando un pequeño conjunto de imágenes de un nuevo objeto que no estaba incluido en el conjunto de entrenamiento del modelo base de texto a imagen. Esto se logra mediante la inversión textual , es decir, encontrar un nuevo término de texto que corresponda a estas imágenes.

Siguiendo otros modelos de texto a imagen, las plataformas de texto a vídeo basadas en modelos de lenguaje como Runway, Make-A-Video, [13] Imagen Video, [14] Midjourney, [15] y Phenaki [16] pueden generar vídeo a partir de texto y/o indicaciones de texto/imagen. [17]

Arquitectura y formación

Arquitectura de alto nivel que muestra los modelos de aprendizaje automático de última generación de IA y modelos y aplicaciones notables como un mapa de imágenes SVG en el que se puede hacer clic

Los modelos de conversión de texto a imagen se han construido utilizando una variedad de arquitecturas. El paso de codificación de texto se puede realizar con una red neuronal recurrente , como una red de memoria a corto plazo larga (LSTM), aunque desde entonces los modelos de transformador se han convertido en una opción más popular. Para el paso de generación de imágenes, se han utilizado comúnmente redes generativas adversarias condicionales (GAN), y los modelos de difusión también se han convertido en una opción popular en los últimos años. En lugar de entrenar directamente un modelo para generar una imagen de alta resolución condicionada a una incrustación de texto, una técnica popular es entrenar un modelo para generar imágenes de baja resolución y utilizar uno o más modelos auxiliares de aprendizaje profundo para mejorarlo, completando los detalles más finos.

Los modelos de conversión de texto a imagen se entrenan en grandes conjuntos de datos de pares (texto, imagen), a menudo extraídos de la web. Con su modelo Imagen 2022, Google Brain informó resultados positivos al utilizar un gran modelo de lenguaje entrenado por separado en un corpus de solo texto (con sus pesos posteriormente congelados), lo que supone un cambio con respecto al enfoque estándar hasta entonces. [18]

Conjuntos de datos

Ejemplos de imágenes y subtítulos de tres conjuntos de datos públicos que se utilizan habitualmente para entrenar modelos de texto a imagen

Para entrenar un modelo de texto a imagen se necesita un conjunto de datos de imágenes emparejadas con leyendas de texto. Un conjunto de datos que se usa comúnmente para este propósito es el conjunto de datos COCO. Lanzado por Microsoft en 2014, COCO consta de alrededor de 123.000 imágenes que representan una diversidad de objetos con cinco leyendas por imagen, generadas por anotadores humanos. Oxford-120 Flowers y CUB-200 Birds son conjuntos de datos más pequeños de alrededor de 10.000 imágenes cada uno, restringidos a flores y pájaros, respectivamente. Se considera menos difícil entrenar un modelo de texto a imagen de alta calidad con estos conjuntos de datos debido a su rango limitado de temas. [7]

Evaluación de calidad

Evaluar y comparar la calidad de los modelos de conversión de texto a imagen es un problema que implica evaluar múltiples propiedades deseables. Un desideratum específico de los modelos de conversión de texto a imagen es que las imágenes generadas se alineen semánticamente con los subtítulos de texto utilizados para generarlas. Se han ideado varios esquemas para evaluar estas cualidades, algunos automatizados y otros basados ​​en el juicio humano. [7]

Una métrica algorítmica común para evaluar la calidad y diversidad de imágenes es el Inception Score (IS), que se basa en la distribución de etiquetas predichas por un modelo de clasificación de imágenes Inceptionv3 entrenado previamente cuando se aplica a una muestra de imágenes generadas por el modelo de texto a imagen. La puntuación aumenta cuando el modelo de clasificación de imágenes predice una sola etiqueta con alta probabilidad, un esquema destinado a favorecer las imágenes generadas "distintas". Otra métrica popular es la distancia de inicio de Fréchet relacionada , que compara la distribución de imágenes generadas e imágenes de entrenamiento reales según las características extraídas por una de las capas finales de un modelo de clasificación de imágenes entrenado previamente. [7]

Impacto y aplicaciones

La IA tiene el potencial de una transformación social , que puede incluir la habilitación de la expansión de géneros de nicho no comerciales (como los derivados del ciberpunk como el solarpunk ) por parte de aficionados, entretenimiento novedoso, creación rápida de prototipos, [19] aumento de la accesibilidad a la creación artística, [19] y la producción artística por esfuerzo y/o gastos y/o tiempo [19] —por ejemplo, mediante la generación de borradores, redefiniciones de borradores y componentes de imagen ( repintado ). Las imágenes generadas a veces se utilizan como bocetos, [20] experimentos de bajo costo, [21] inspiración o ilustraciones de ideas en etapa de prueba de concepto . Las funcionalidades o mejoras adicionales también pueden estar relacionadas con la edición manual posterior a la generación (es decir, pulido), como ajustes posteriores con un editor de imágenes. [21]

Lista de modelos de conversión de texto a imagen destacados

Véase también

Referencias

  1. ^ Vincent, James (24 de mayo de 2022). «Todas estas imágenes fueron generadas por la última inteligencia artificial de conversión de texto a imagen de Google». The Verge . Vox Media . Consultado el 28 de mayo de 2022 .
  2. ^ Agnese, Jorge; Herrera, Jonathan; Tao, Haicheng; Zhu, Xingquan (octubre de 2019), Un estudio y taxonomía de redes neuronales adversarias para la síntesis de texto a imagen , arXiv : 1910.09399
  3. ^ Zhu, Xiaojin; Goldberg, Andrew B.; Eldawy, Mohamed; Dyer, Charles R.; Strock, Bradley (2007). "Un sistema de síntesis de texto a imagen para aumentar la comunicación" (PDF) . AAAI . 7 : 1590–1595.
  4. ^ abc Mansimov, Elman; Parisotto, Emilio; Lei Ba, Jimmy; Salakhutdinov, Ruslan (noviembre de 2015). "Generación de imágenes a partir de subtítulos con atención". ICLR . arXiv : 1511.02793 .
  5. ^ abc Reed, Scott; Akata, Zeynep; Logeswaran, Lajanugen; Schiele, Bernt; Lee, Honglak (junio de 2016). "Síntesis generativa adversarial de texto a imagen" (PDF) . Conferencia internacional sobre aprendizaje automático . arXiv : 1605.05396 .
  6. ^ Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy Lei; Salakhutdinov, Ruslan (29 de febrero de 2016). "Generación de imágenes a partir de subtítulos con atención". Conferencia internacional sobre representaciones de aprendizaje . arXiv : 1511.02793 .
  7. ^ abcd Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (diciembre de 2021). «Síntesis adversarial de texto a imagen: una revisión». Redes neuronales . 144 : 187–209. arXiv : 2101.09983 . doi : 10.1016/j.neunet.2021.07.019 . PMID  34500257. S2CID  231698782.
  8. ^ Rodríguez, Jesús (27 de septiembre de 2022). "🌅 Edge#229: VQGAN + CLIP". thesequence.substack.com . Consultado el 10 de octubre de 2022 .
  9. ^ Rodríguez, Jesús (4 de octubre de 2022). "🎆🌆 Edge#231: Síntesis de texto a imagen con GAN". thesequence.substack.com . Consultado el 10 de octubre de 2022 .
  10. ^ Coldewey, Devin (5 de enero de 2021). "DALL-E de OpenAI crea imágenes plausibles de literalmente cualquier cosa que le pidas". TechCrunch .
  11. ^ Coldewey, Devin (6 de abril de 2022). "El nuevo modelo DALL-E de OpenAI dibuja cualquier cosa, pero más grande, mejor y más rápido que antes". TechCrunch .
  12. ^ "Lanzamiento público de difusión estable". Stability.Ai . Consultado el 27 de octubre de 2022 .
  13. ^ Kumar, Ashish (3 de octubre de 2022). "Meta AI presenta 'Make-A-Video': un sistema de inteligencia artificial que genera videos a partir de texto". MarkTechPost . Consultado el 3 de octubre de 2022 .
  14. ^ Edwards, Benj (5 de octubre de 2022). "El nuevo generador de inteligencia artificial de Google crea videos en HD a partir de indicaciones de texto". Ars Technica . Consultado el 25 de octubre de 2022 .
  15. ^ Rodríguez, Jesús (25 de octubre de 2022). "🎨 Edge#237: ¿Qué es Midjourney?". thesequence.substack.com . Consultado el 26 de octubre de 2022 .
  16. ^ "Phenaki". phenaki.video . Consultado el 3 de octubre de 2022 .
  17. ^ Edwards, Benj (9 de septiembre de 2022). "Runway adelanta una edición de texto a video impulsada por IA mediante indicaciones escritas". Ars Technica . Consultado el 12 de septiembre de 2022 .
  18. ^ Sahara, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Vaya, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Hola, Jonatán; Flota J, David; Norouzi, Mohammad (23 de mayo de 2022). "Modelos fotorrealistas de difusión de texto a imagen con comprensión profunda del lenguaje". arXiv : 2205.11487 [cs.CV].
  19. ^ abc Elgan, Mike (1 de noviembre de 2022). «Cómo los 'medios sintéticos' transformarán los negocios para siempre». Computerworld . Consultado el 9 de noviembre de 2022 .
  20. ^ Roose, Kevin (21 de octubre de 2022). «El arte generado por IA ya está transformando el trabajo creativo». The New York Times . Consultado el 16 de noviembre de 2022 .
  21. ^ ab Leswing, Kif. "Por qué Silicon Valley está tan entusiasmado con los dibujos extraños hechos por inteligencia artificial". CNBC . Consultado el 16 de noviembre de 2022 .
  22. ^ "Imagen 2 en Vertex AI ya está disponible para el público en general". Blog de Google Cloud . Consultado el 2 de enero de 2024 .