Dall-e

[7]​ Muchas redes neuronales artificiales desde la década de 2000 en adelante han podido generar imágenes realistas.

[3]​ DALL-E fue desarrollado y anunciado al público en conjunto a CLIP (Contrastive Language-Image Pre-training o Pre-entrenamiento de Imagen-Lenguaje Contrastante),[1]​ un modelo separado cuya función es «comprender y clasificar» su resultado.

[1]​ Utiliza el aprendizaje zero-shot para generar resultados a partir de una descripción y una pista sin más entrenamiento.

[14]​ DALL-E genera una gran cantidad de imágenes en respuesta a unas indicaciones.

[2]​ Una habilidad captada por sus creadores fue la correcta colocación de elementos diseñados en composiciones novedosas sin instrucciones explícitas: «Por ejemplo, cuando se le pide que dibuje un rábano japonés sonándose la nariz, tomando un café con leche o montando un monociclo, DALL · E a menudo dibuja el pañuelo, manos y pies en lugares plausibles».

[24]​ Su resultado de «un sillón con la forma de un aguacate» fue presentado por Wired,[21]​ VentureBeat,[2]​ New Scientist,[23]​ NBC,[19]​ MIT Technology Review,[1]​ CNBC,[17]​ CNN[22]​ y BBC.

[24]​ También se destacó la capacidad de DALL-E para «completar los espacios en blanco» e introducir detalles apropiados sin indicaciones específicas.

ExtremeTech notó que una indicación para dibujar «un pingüino con un jersey navideño» producía imágenes de pingüinos que no solo usando un jersey, sino también sombreros de Santa,[27]​ y Engadget señaló que aparecieron sombras apropiadamente colocadas en los resultados del mensaje «una pintura de un zorro sentado en un campo durante el invierno».

[27]​ Engadget también señaló su capacidad inusual de «comprender cómo los teléfonos y otros objetos cambian con el tiempo».

[17]​ Si bien TechCrunch dijo «no escribas obituarios de fotografías e ilustraciones de archivo todavía»,[3]​ Engadget dijo que «si se desarrolla más, DALL-E tiene un gran potencial para alterar campos como la fotografía de archivo y la ilustración, con todo lo bueno y lo malo que implica».

Una imagen generada por Dall-e tras escribir el mensaje de texto: «Un edificio arquitectónico moderno con grandes ventanales de vidrio, situado en un acantilado con vista a un océano sereno al atardecer».
Una imagen generada con DALL-E 2 basada en el texto: «Arte de los años 60 de una vaca secuestrada por un ovni en el medio oeste».
Imágenes producidas por DALL-E al indicarle que representase «una ilustración profesional en alta calidad de una jirafa dragón quimera. una jirafa imitando a un dragón. una jirafa hecha de dragón»
Ejemplo de imágenes generadas por DALL-E a partir de las siguientes instrucciones: [ 28 ]
* una biblioteca medieval a la luz de la luna;
* una biblioteca medieval a la luz de la luna (mismas instrucciones);
* un códice sobre una mesa en una biblioteca medieval;
* un monje copista trabajando a la luz de una vela;
* la silueta de un monje cisterciense parcialmente oculta tras una cortina;
* primer plano de la manga de un monje cisterciense que sostiene en su mano una daga;
* claroscuro de un monje cisterciense tendido en el suelo;
* claroscuro de una daga en el suelo;
* silueta de un monje cisterciense portando un códice en un pasillo oscuro.
Una imagen generada por DALL-E 3 basada en el texto preciso: «Una ilustración de un aguacate sentado en la silla de un terapeuta, diciendo 'Me siento tan vacío por dentro' con un agujero del tamaño de un hoyo en el centro. El terapeuta, que es una cuchara, garabatea notas».