Modelo de texto a imagen

Un modelo de texto a imagen es un modelo de aprendizaje automático que toma una descripción en lenguaje natural de entrada y produce una imagen que coincide con esa descripción.

Estos modelos comenzaron a desarrollarse a mediados de la década de 2010, durante los inicios de la primavera de la IA , como resultado de los avances en las redes neuronales profundas . En 2022, la producción de modelos de conversión de texto a imagen de última generación, como DALL-E 2 de OpenAI, Imagen de Google Brain , Stable Diffusion de StabilityAI y Midjourney , comenzaron a acercarse a la calidad de las fotografías reales y el arte dibujado por humanos. ^{[ cita necesaria ]}

Los modelos de texto a imagen generalmente combinan un modelo de lenguaje , que transforma el texto de entrada en una representación latente, y un modelo de imagen generativa , que produce una imagen condicionada a esa representación. Los modelos más eficaces generalmente se han entrenado con cantidades masivas de datos de imágenes y texto extraídos de la web. ^[1]

Historia

Antes del auge del aprendizaje profundo , los intentos de construir modelos de texto a imagen se limitaban a collages organizando imágenes componentes existentes, como las de una base de datos de imágenes prediseñadas . ^[2]^[3]

La tarea inversa, los subtítulos de imágenes , era más manejable y varios modelos de aprendizaje profundo de subtítulos de imágenes fueron anteriores a los primeros modelos de texto a imagen. ^[4]

El primer modelo moderno de conversión de texto a imagen, alignDRAW, fue introducido en 2015 por investigadores de la Universidad de Toronto . alignDRAW amplió la arquitectura DRAW introducida anteriormente (que utilizaba un codificador automático variacional recurrente con un mecanismo de atención ) para condicionarla a secuencias de texto. ^[4] Las imágenes generadas por alignDRAW eran borrosas y no fotorrealistas, pero el modelo pudo generalizar a objetos no representados en los datos de entrenamiento (como un autobús escolar rojo) y manejó adecuadamente indicaciones novedosas como "una señal de alto está volando". en cielos azules", demostrando que no se trataba simplemente de "memorizar" datos del conjunto de entrenamiento. ^[4]^[5]

Ocho imágenes generadas a partir del mensaje de texto "Una señal de alto vuela en el cielo azul". por AlignDRAW (2015). Ampliado para mostrar detalles. ^[6]

En 2016, Reed, Akata, Yan et al. se convirtió en el primero en utilizar redes generativas adversarias para la tarea de conversión de texto a imagen. ^[5]^[7] Con modelos entrenados en conjuntos de datos estrechos y de dominio específico, pudieron generar imágenes "visualmente plausibles" de pájaros y flores a partir de leyendas de texto como "un pájaro completamente negro con un pico grueso y redondeado distintivo". Un modelo entrenado en el conjunto de datos COCO más diverso produjo imágenes que eran "desde la distancia... alentadoras", pero que carecían de coherencia en sus detalles. ^[5] Los sistemas posteriores incluyen VQGAN+CLIP, ^[8] XMC-GAN y GauGAN2. ^[9]

Interpretaciones de DALL·E 2 (arriba, abril de 2022) y DALL·E 3 (abajo, septiembre de 2023) de "Una señal de alto vuela en el cielo azul".

Uno de los primeros modelos de conversión de texto a imagen que captó la atención del público generalizado fue DALL-E de OpenAI , un sistema transformador anunciado en enero de 2021. ^[10] Un sucesor capaz de generar imágenes más complejas y realistas, DALL-E 2, se dio a conocer en abril de 2022, ^[11] seguido de Stable Diffusion publicado públicamente en agosto de 2022. ^[12]

Siguiendo otros modelos de texto a imagen, las plataformas de texto a vídeo basadas en modelos de lenguaje como Runway, Make-A-Video, ^[13] Imagen Video, ^[14] Midjourney, ^[15] y Phenaki ^[16] pueden generar vídeo a partir de mensajes de texto y/o texto/imagen. ^[17]

En agosto de 2022, se demostró además cómo se pueden "personalizar" grandes modelos básicos de conversión de texto a imagen. La personalización de texto a imagen permite enseñarle al modelo un nuevo concepto utilizando un pequeño conjunto de imágenes de un nuevo objeto que no se incluyó en el conjunto de entrenamiento del modelo básico de texto a imagen. Esto se logra mediante la inversión textual, es decir, encontrar un nuevo término de texto que corresponda a estas imágenes.

Arquitectura y formación

Los modelos de texto a imagen se han creado utilizando una variedad de arquitecturas. El paso de codificación de texto se puede realizar con una red neuronal recurrente , como una red de memoria a corto plazo (LSTM), aunque desde entonces los modelos de transformadores se han convertido en una opción más popular. Para el paso de generación de imágenes, se han utilizado comúnmente redes adversarias generativas condicionales, y los modelos de difusión también se han convertido en una opción popular en los últimos años. En lugar de entrenar directamente un modelo para generar una imagen de alta resolución condicionada a la incrustación de texto, una técnica popular es entrenar un modelo para generar imágenes de baja resolución y utilizar uno o más modelos auxiliares de aprendizaje profundo para mejorarlo, completando con mayor precisión. detalles.

Los modelos de texto a imagen se entrenan en grandes conjuntos de datos de pares (texto, imagen), a menudo extraídos de la web. Con su modelo Imagen 2022, Google Brain informó resultados positivos al utilizar un modelo de lenguaje grande entrenado por separado en un corpus de solo texto (con sus pesos posteriormente congelados), una desviación del enfoque estándar hasta entonces. ^[18]

Conjuntos de datos

Entrenar un modelo de texto a imagen requiere un conjunto de datos de imágenes combinadas con leyendas de texto. Un conjunto de datos comúnmente utilizado para este propósito es COCO (Objetos comunes en contexto). Lanzado por Microsoft en 2014, COCO consta de alrededor de 123.000 imágenes que representan una diversidad de objetos, con cinco leyendas por imagen, generadas por anotadores humanos. Oxford-120 Flowers y CUB-200 Birds son conjuntos de datos más pequeños de alrededor de 10.000 imágenes cada uno, restringidos a flores y pájaros, respectivamente. Se considera menos difícil entrenar un modelo de texto a imagen de alta calidad con estos conjuntos de datos, debido a su estrecha gama de temas. ^[7]

Evaluación

Evaluar y comparar la calidad de los modelos de texto a imagen es un problema desafiante e implica evaluar múltiples propiedades deseables. Como ocurre con cualquier modelo de imagen generativa, es deseable que las imágenes generadas sean realistas (en el sentido de que parezcan plausibles haber provenido del conjunto de entrenamiento) y diversas en su estilo. Un deseo específico de los modelos de texto a imagen es que las imágenes generadas se alineen semánticamente con las leyendas de texto utilizadas para generarlas. Se han ideado varios esquemas para evaluar estas cualidades, algunos automatizados y otros basados en el juicio humano. ^[7]

Una métrica algorítmica común para evaluar la calidad y diversidad de las imágenes es la puntuación Inception (IS), que se basa en la distribución de etiquetas predichas por un modelo de clasificación de imágenes Inceptionv3 previamente entrenado cuando se aplica a una muestra de imágenes generadas por el modelo de texto a imagen. La puntuación aumenta cuando el modelo de clasificación de imágenes predice una sola etiqueta con alta probabilidad, un esquema destinado a favorecer imágenes generadas "distintas". Otra métrica popular es la distancia inicial de Fréchet relacionada , que compara la distribución de las imágenes generadas y las imágenes de entrenamiento reales, según las características extraídas por una de las capas finales de un modelo de clasificación de imágenes previamente entrenado. ^[7]

Impacto y aplicaciones

La exposición "Máquinas pensantes: arte y diseño en la era de la informática, 1959-1989" en el MoMA proporcionó una visión general de las aplicaciones de la IA para el arte, la arquitectura y el diseño. Las exposiciones que muestran el uso de la IA para producir arte incluyen la subasta y beneficio patrocinado por Google de 2016 en la Grey Area Foundation en San Francisco, donde los artistas experimentaron con el algoritmo DeepDream y la exposición de 2017 "Unhuman: Art in the Age of AI", que tuvo lugar en Los Ángeles y Frankfurt. En la primavera de 2018, la Association for Computing Machinery dedicó un número de revista al tema de la informática y el arte. En junio de 2018, "Duet for Human and Machine", una obra de arte que permite a los espectadores interactuar con una inteligencia artificial, se estrenó en el Beall Center for Art + Technology. El Ars Electronica y el Museo de Artes Aplicadas de Viena de Austria inauguraron exposiciones sobre IA en 2019. El festival "Out of the box" de Ars Electronica de 2019 exploró el papel del arte en una transformación social sostenible.

Ejemplos de tal aumento pueden incluir, por ejemplo, permitir la expansión de géneros especializados no comerciales (ejemplos comunes son derivados del cyberpunk como el solarpunk ) por parte de aficionados, entretenimiento novedoso, juegos infantiles novedosos e imaginativos , creación de prototipos muy rápida, ^[19] aumento de la accesibilidad a la creación de arte ^[19] y desarrollo artístico. producción por esfuerzo y/o gastos y/o tiempo ^[19] – por ejemplo, mediante la generación de borradores, inspiraciones, refinamientos de borradores y componentes de imagen ( Inpainting ).

Las imágenes generadas a veces se utilizan como bocetos ^[20] o experimentos de bajo costo ^[21] o ilustración de ideas de etapa de prueba de concepto ; las funcionalidades o mejoras adicionales también pueden estar relacionadas con la edición manual posterior a la generación (pulido o uso artístico) de arte basado en indicaciones (como ajustes posteriores con un editor de imágenes). ^[21]

Lista de modelos de texto a imagen

Ver también

Arte de inteligencia artificial

Referencias

^ Vincent, James (24 de mayo de 2022). "Todas estas imágenes fueron generadas por la última IA de conversión de texto a imagen de Google". El borde . Medios Vox . Consultado el 28 de mayo de 2022 .
^ Agnese, Jorge; Herrera, Jonatán; Tao, Haicheng; Zhu, Xingquan (octubre de 2019), Estudio y taxonomía de redes neuronales adversas para la síntesis de texto a imagen , arXiv : 1910.09399
^ Zhu, Xiaojin; Goldberg, Andrew B.; Eldawy, Mohamed; Dyer, Charles R.; Strock, Bradley (2007). "Un sistema de síntesis de texto a imagen para aumentar la comunicación" (PDF) . AAAI . 7 : 1590-1595.
^ abc Mansimov, Elman; Parisotto, Emilio; Lei Ba, Jimmy; Salakhutdinov, Ruslan (noviembre de 2015). "Generar imágenes a partir de subtítulos con atención". ICLR . arXiv : 1511.02793 .
^ abc Reed, Scott; Akata, Zeynep; Logeswaran, Lajanugen; Schiele, Bernt; Lee, Honglak (junio de 2016). "Síntesis generativa de texto adversario a imagen" (PDF) . Congreso Internacional sobre Aprendizaje Automático .
^ Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy Lei; Salakhutdinov, Ruslan (29 de febrero de 2016). "Generar imágenes a partir de subtítulos con atención". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1511.02793 .
^ abcd Frolov, Stanislav; Hinz, Tobías; Raue, Federico; Hola, Jörn; Dengel, Andreas (diciembre de 2021). "Síntesis adversaria de texto a imagen: una revisión". Redes neuronales . 144 : 187–209. arXiv : 2101.09983 . doi : 10.1016/j.neunet.2021.07.019 . PMID 34500257. S2CID 231698782.
^ Rodríguez, Jesús. "🌅 Borde n.º 229: VQGAN + CLIP". estosquence.substack.com . Consultado el 10 de octubre de 2022 .
^ Rodríguez, Jesús. "🎆🌆 Edge#231: Síntesis de texto a imagen con GAN". estosquence.substack.com . Consultado el 10 de octubre de 2022 .
^ Coldewey, Devin (5 de enero de 2021). "DALL-E de OpenAI crea imágenes plausibles de literalmente cualquier cosa que le pidas". TechCrunch .
^ Coldewey, Devin (6 de abril de 2022). "El nuevo modelo DALL-E de OpenAI dibuja cualquier cosa, pero más grande, mejor y más rápido que antes". TechCrunch .
^ "Lanzamiento público de difusión estable". Estabilidad.Ai . Consultado el 27 de octubre de 2022 .
^ Kumar, Ashish (3 de octubre de 2022). "Meta AI presenta 'Make-A-Video': un sistema de inteligencia artificial que genera vídeos a partir de texto". MarkTechPost . Consultado el 3 de octubre de 2022 .
^ Edwards, Benj (5 de octubre de 2022). "El generador de inteligencia artificial más nuevo de Google crea videos HD a partir de indicaciones de texto". Ars Técnica . Consultado el 25 de octubre de 2022 .
^ Rodríguez, Jesús. "🎨 Edge#237: ¿Qué es Midjorney?". estosquence.substack.com . Consultado el 26 de octubre de 2022 .
^ "Fenaki". phenaki.video . Consultado el 3 de octubre de 2022 .
^ Edwards, Benj (9 de septiembre de 2022). "Runway muestra la edición de texto a video impulsada por IA mediante indicaciones escritas". Ars Técnica . Consultado el 12 de septiembre de 2022 .
^ Sahara, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Vaya, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Hola, Jonatán; Flota J, David; Norouzi, Mohammad (23 de mayo de 2022). "Modelos fotorrealistas de difusión de texto a imagen con comprensión profunda del lenguaje". arXiv : 2205.11487 [cs.CV].
^ abc Elgan, Mike (1 de noviembre de 2022). "Cómo los 'medios sintéticos' transformarán los negocios para siempre". Mundo de la informática . Consultado el 9 de noviembre de 2022 .
^ Roose, Kevin (21 de octubre de 2022). "El arte generado por IA ya está transformando el trabajo creativo". Los New York Times . Consultado el 16 de noviembre de 2022 .
^ ab Leswing, Kif. "Por qué Silicon Valley está tan entusiasmado con los dibujos incómodos realizados por inteligencia artificial". CNBC . Consultado el 16 de noviembre de 2022 .
^ "Imagen 2 en Vertex AI ya está disponible de forma generalizada". Blog de la nube de Google . Consultado el 2 de enero de 2024 .