DeepDream es un programa de visión artificial creado por el ingeniero de Google Alexander Mordvintsev que utiliza una red neuronal convolucional para encontrar y mejorar patrones en imágenes a través de pareidolia algorítmica , creando así una apariencia onírica que recuerda a una experiencia psicodélica en las imágenes deliberadamente sobreprocesadas. [1] [2] [3]
El programa de Google popularizó el término “sueño” (profundo) para referirse a la generación de imágenes que producen activaciones deseadas en una red profunda entrenada , y el término ahora se refiere a una colección de enfoques relacionados.
El software DeepDream, originado en una red convolucional profunda cuyo nombre en código era "Origen" en honor a la película del mismo nombre , [1] [2] [3] fue desarrollado para el Desafío de reconocimiento visual a gran escala ImageNet (ILSVRC) en 2014 [3] y lanzado en julio de 2015.
La idea y el nombre de los sueños se hicieron populares en Internet en 2015 gracias al programa DeepDream de Google. La idea data de los inicios de la historia de las redes neuronales [4] y se han utilizado métodos similares para sintetizar texturas visuales [5] . Varios grupos de investigación desarrollaron ideas de visualización relacionadas (antes del trabajo de Google). [6] [7]
Después de que Google publicara sus técnicas e hiciera que su código fuera de código abierto , [8] aparecieron en el mercado varias herramientas en forma de servicios web, aplicaciones móviles y software de escritorio que permitían a los usuarios transformar sus propias fotos. [9]
El software está diseñado para detectar caras y otros patrones en imágenes, con el objetivo de clasificar imágenes automáticamente. [10] Sin embargo, una vez entrenada, la red también se puede ejecutar a la inversa, pidiéndole que ajuste ligeramente la imagen original para que una neurona de salida dada (por ejemplo, la de las caras o ciertos animales) produzca una puntuación de confianza más alta. Esto se puede utilizar para visualizaciones para comprender mejor la estructura emergente de la red neuronal, y es la base del concepto DeepDream. Este procedimiento de inversión nunca es perfectamente claro e inequívoco porque utiliza un proceso de mapeo de uno a muchos . [11] Sin embargo, después de suficientes reiteraciones, incluso las imágenes inicialmente desprovistas de las características buscadas se ajustarán lo suficiente como para que resulte una forma de pareidolia , por la cual se generan imágenes psicodélicas y surrealistas algorítmicamente. La optimización se parece a la retropropagación ; sin embargo, en lugar de ajustar los pesos de la red, los pesos se mantienen fijos y se ajusta la entrada.
Por ejemplo, se puede alterar una imagen existente para que se parezca más a un gato y la imagen mejorada resultante se puede volver a introducir en el procedimiento. [2] Este uso se asemeja a la actividad de buscar animales u otros patrones en las nubes.
La aplicación del descenso de gradiente de forma independiente a cada píxel de la entrada produce imágenes en las que los píxeles adyacentes tienen poca relación y, por lo tanto, la imagen tiene demasiada información de alta frecuencia. Las imágenes generadas se pueden mejorar en gran medida al incluir un prior o regularizador que prefiera entradas que tengan estadísticas de imagen naturales (sin una preferencia por ninguna imagen en particular) o que sean simplemente suaves. [7] [12] [13] Por ejemplo, Mahendran et al. [12] utilizaron el regularizador de variación total que prefiere imágenes que sean constantes por partes. Varios regularizadores se analizan con más detalle en Yosinski et al. [13] Más recientemente, se publicó una exploración visual en profundidad de las técnicas de visualización y regularización de características. [14]
La citada semejanza de las imágenes con las alucinaciones inducidas por LSD y psilocibina sugiere una semejanza funcional entre las redes neuronales artificiales y capas particulares de la corteza visual. [15]
Las redes neuronales como DeepDream tienen analogías biológicas que brindan información sobre el procesamiento cerebral y la formación de la conciencia. Los alucinógenos como la DMT alteran la función del sistema serotoninérgico que está presente dentro de las capas de la corteza visual. Las redes neuronales se entrenan con vectores de entrada y se alteran por variaciones internas durante el proceso de entrenamiento. Las modificaciones de entrada e internas representan el procesamiento de señales exógenas y endógenas respectivamente en la corteza visual. A medida que se modifican las variaciones internas en las redes neuronales profundas, la imagen de salida refleja estos cambios. Esta manipulación específica demuestra cómo los mecanismos cerebrales internos son análogos a las capas internas de las redes neuronales. Las modificaciones del nivel de ruido interno representan cómo los alucinógenos omiten la información sensorial externa, lo que lleva a que las concepciones preconcebidas internas influyan fuertemente en la percepción visual. [16]
La idea de soñar se puede aplicar a neuronas ocultas (internas) distintas de las de la salida, lo que permite explorar los roles y las representaciones de varias partes de la red. [13] También es posible optimizar la entrada para satisfacer una sola neurona (este uso a veces se denomina Maximización de la Actividad) [17] o una capa entera de neuronas.
Si bien soñar se utiliza con mayor frecuencia para visualizar redes o producir arte informático, recientemente se ha propuesto que agregar entradas "soñadas" al conjunto de entrenamiento puede mejorar los tiempos de entrenamiento para abstracciones en Ciencias de la Computación. [18]
También se ha demostrado que el modelo DeepDream tiene aplicación en el campo de la historia del arte . [19]
DeepDream se utilizó para el vídeo musical de Foster the People para la canción " Doing It for the Money ". [20]
En 2017, un grupo de investigación de la Universidad de Sussex creó una máquina de alucinaciones , aplicando el algoritmo DeepDream a un video panorámico pregrabado, lo que permite a los usuarios explorar entornos de realidad virtual para imitar la experiencia de sustancias psicoactivas y/o condiciones psicopatológicas. [21] Pudieron demostrar que las experiencias subjetivas inducidas por la máquina de alucinaciones diferían significativamente de los videos de control (no "alucinógenos"), mientras que tenían similitudes fenomenológicas con el estado psicodélico (después de la administración de psilocibina).
En 2021, un estudio publicado en la revista Entropy demostró la similitud entre DeepDream y la experiencia psicodélica real con evidencia neurocientífica . [22] Los autores registraron la electroencefalografía ( EEG ) de los participantes humanos durante la visión pasiva de un clip de película y su contraparte generada por DeepDream. Descubrieron que el video de DeepDream desencadenó una mayor entropía en la señal del EEG y un mayor nivel de conectividad funcional entre las áreas del cerebro, [22] ambos biomarcadores bien conocidos de la experiencia psicodélica real. [23]
En 2022, un grupo de investigación coordinado por la Universidad de Trento "midió la flexibilidad cognitiva y la creatividad de los participantes después de la exposición a videos panorámicos de realidad virtual y sus contrapartes alucinatorias generadas por el algoritmo DeepDream... después de la exposición psicodélica simulada, los individuos exhibieron... una contribución atenuada del proceso automático y la dinámica caótica subyacente a sus procesos de decisión, presumiblemente debido a una reorganización en la dinámica cognitiva que facilita la exploración de estrategias de decisión poco comunes e inhibe las elecciones automatizadas". [24]