Un modelo de texto a imagen es un modelo de aprendizaje automático que toma una descripción en lenguaje natural de entrada y produce una imagen que coincide con esa descripción.
Los modelos de texto a imagen comenzaron a desarrollarse a mediados de la década de 2010, durante los inicios del auge de la IA , como resultado de los avances en redes neuronales profundas . En 2022, se comenzó a considerar el resultado de modelos de texto a imagen de última generación, como DALL-E 2 de OpenAI , Imagen de Google Brain , Stable Diffusion de Stability AI y Midjourney , para acercarse a la calidad de las fotografías reales y el arte dibujado por humanos .
Los modelos de texto a imagen son generalmente modelos de difusión latente , que combinan un modelo de lenguaje , que transforma el texto de entrada en una representación latente , y un modelo de imagen generativa , que produce una imagen condicionada a esa representación. Los modelos más eficaces generalmente se han entrenado con cantidades masivas de datos de imágenes y texto extraídos de la web . [1]
Antes del surgimiento del aprendizaje profundo , [¿ cuándo? ] los intentos de construir modelos de texto a imagen se limitaban a collages mediante la organización de imágenes de componentes existentes, como las de una base de datos de imágenes prediseñadas . [2] [3]
La tarea inversa, el subtitulado de imágenes , era más manejable, y varios modelos de aprendizaje profundo de subtitulado de imágenes surgieron antes de los primeros modelos de texto a imagen. [4]
El primer modelo moderno de conversión de texto a imagen, alignDRAW, fue presentado en 2015 por investigadores de la Universidad de Toronto . alignDRAW extendió la arquitectura DRAW introducida previamente (que utilizaba un autocodificador variacional recurrente con un mecanismo de atención ) para que estuviera condicionada a secuencias de texto. [4] Las imágenes generadas por alignDRAW tenían una resolución pequeña (32×32 píxeles, obtenidos mediante el cambio de tamaño ) y se consideraban "de baja diversidad". El modelo pudo generalizarse a objetos no representados en los datos de entrenamiento (como un autobús escolar rojo) y manejó apropiadamente indicaciones novedosas como "una señal de stop está volando en cielos azules", mostrando un resultado que no estaba simplemente "memorizando" datos del conjunto de entrenamiento . [4] [5]
En 2016, Reed, Akata, Yan et al. fueron los primeros en utilizar redes generativas adversarias para la tarea de conversión de texto a imagen. [5] [7] Con modelos entrenados en conjuntos de datos estrechos y específicos del dominio, pudieron generar imágenes "visualmente plausibles" de pájaros y flores a partir de leyendas de texto como "un pájaro completamente negro con un pico grueso y redondeado distintivo" . Un modelo entrenado en el conjunto de datos COCO (Objetos comunes en contexto) más diverso produjo imágenes que eran "a la distancia... alentadoras", pero que carecían de coherencia en sus detalles. [5] Los sistemas posteriores incluyen VQGAN-CLIP, [8] XMC-GAN y GauGAN2. [9]
Uno de los primeros modelos de texto a imagen que captó la atención del público en general fue DALL-E de OpenAI , un sistema transformador anunciado en enero de 2021. [10] Un sucesor capaz de generar imágenes más complejas y realistas, DALL-E 2, se presentó en abril de 2022, [11] seguido de Stable Diffusion que se lanzó públicamente en agosto de 2022. [12] En agosto de 2022, la personalización de texto a imagen permite enseñar al modelo un nuevo concepto utilizando un pequeño conjunto de imágenes de un nuevo objeto que no estaba incluido en el conjunto de entrenamiento del modelo base de texto a imagen. Esto se logra mediante la inversión textual , es decir, encontrar un nuevo término de texto que corresponda a estas imágenes.
Siguiendo otros modelos de texto a imagen, las plataformas de texto a vídeo basadas en modelos de lenguaje como Runway, Make-A-Video, [13] Imagen Video, [14] Midjourney, [15] y Phenaki [16] pueden generar vídeo a partir de texto y/o indicaciones de texto/imagen. [17]
Los modelos de conversión de texto a imagen se han construido utilizando una variedad de arquitecturas. El paso de codificación de texto se puede realizar con una red neuronal recurrente , como una red de memoria a corto plazo larga (LSTM), aunque desde entonces los modelos de transformador se han convertido en una opción más popular. Para el paso de generación de imágenes, se han utilizado comúnmente redes generativas adversarias condicionales (GAN), y los modelos de difusión también se han convertido en una opción popular en los últimos años. En lugar de entrenar directamente un modelo para generar una imagen de alta resolución condicionada a una incrustación de texto, una técnica popular es entrenar un modelo para generar imágenes de baja resolución y utilizar uno o más modelos auxiliares de aprendizaje profundo para mejorarlo, completando los detalles más finos.
Los modelos de conversión de texto a imagen se entrenan en grandes conjuntos de datos de pares (texto, imagen), a menudo extraídos de la web. Con su modelo Imagen 2022, Google Brain informó resultados positivos al utilizar un gran modelo de lenguaje entrenado por separado en un corpus de solo texto (con sus pesos posteriormente congelados), lo que supone un cambio con respecto al enfoque estándar hasta entonces. [18]
Para entrenar un modelo de texto a imagen se necesita un conjunto de datos de imágenes emparejadas con leyendas de texto. Un conjunto de datos que se usa comúnmente para este propósito es el conjunto de datos COCO. Lanzado por Microsoft en 2014, COCO consta de alrededor de 123.000 imágenes que representan una diversidad de objetos con cinco leyendas por imagen, generadas por anotadores humanos. Oxford-120 Flowers y CUB-200 Birds son conjuntos de datos más pequeños de alrededor de 10.000 imágenes cada uno, restringidos a flores y pájaros, respectivamente. Se considera menos difícil entrenar un modelo de texto a imagen de alta calidad con estos conjuntos de datos debido a su rango limitado de temas. [7]
Evaluar y comparar la calidad de los modelos de conversión de texto a imagen es un problema que implica evaluar múltiples propiedades deseables. Un desideratum específico de los modelos de conversión de texto a imagen es que las imágenes generadas se alineen semánticamente con los subtítulos de texto utilizados para generarlas. Se han ideado varios esquemas para evaluar estas cualidades, algunos automatizados y otros basados en el juicio humano. [7]
Una métrica algorítmica común para evaluar la calidad y diversidad de imágenes es el Inception Score (IS), que se basa en la distribución de etiquetas predichas por un modelo de clasificación de imágenes Inceptionv3 entrenado previamente cuando se aplica a una muestra de imágenes generadas por el modelo de texto a imagen. La puntuación aumenta cuando el modelo de clasificación de imágenes predice una sola etiqueta con alta probabilidad, un esquema destinado a favorecer las imágenes generadas "distintas". Otra métrica popular es la distancia de inicio de Fréchet relacionada , que compara la distribución de imágenes generadas e imágenes de entrenamiento reales según las características extraídas por una de las capas finales de un modelo de clasificación de imágenes entrenado previamente. [7]