[7] Muchas redes neuronales artificiales desde la década de 2000 en adelante han podido generar imágenes realistas.
[3] DALL-E fue desarrollado y anunciado al público en conjunto a CLIP (Contrastive Language-Image Pre-training o Pre-entrenamiento de Imagen-Lenguaje Contrastante),[1] un modelo separado cuya función es «comprender y clasificar» su resultado.
[1] Utiliza el aprendizaje zero-shot para generar resultados a partir de una descripción y una pista sin más entrenamiento.
[14] DALL-E genera una gran cantidad de imágenes en respuesta a unas indicaciones.
[2] Una habilidad captada por sus creadores fue la correcta colocación de elementos diseñados en composiciones novedosas sin instrucciones explícitas: «Por ejemplo, cuando se le pide que dibuje un rábano japonés sonándose la nariz, tomando un café con leche o montando un monociclo, DALL · E a menudo dibuja el pañuelo, manos y pies en lugares plausibles».
[24] Su resultado de «un sillón con la forma de un aguacate» fue presentado por Wired,[21] VentureBeat,[2] New Scientist,[23] NBC,[19] MIT Technology Review,[1] CNBC,[17] CNN[22] y BBC.
[24] También se destacó la capacidad de DALL-E para «completar los espacios en blanco» e introducir detalles apropiados sin indicaciones específicas.
ExtremeTech notó que una indicación para dibujar «un pingüino con un jersey navideño» producía imágenes de pingüinos que no solo usando un jersey, sino también sombreros de Santa,[27] y Engadget señaló que aparecieron sombras apropiadamente colocadas en los resultados del mensaje «una pintura de un zorro sentado en un campo durante el invierno».
[27] Engadget también señaló su capacidad inusual de «comprender cómo los teléfonos y otros objetos cambian con el tiempo».
[17] Si bien TechCrunch dijo «no escribas obituarios de fotografías e ilustraciones de archivo todavía»,[3] Engadget dijo que «si se desarrolla más, DALL-E tiene un gran potencial para alterar campos como la fotografía de archivo y la ilustración, con todo lo bueno y lo malo que implica».