stringtranslate.com

Sueño profundo

La Mona Lisa con efecto DeepDream utilizando la red VGG16 entrenada en ImageNet

DeepDream es un programa de visión artificial creado por el ingeniero de Google Alexander Mordvintsev que utiliza una red neuronal convolucional para encontrar y mejorar patrones en imágenes a través de pareidolia algorítmica , creando así una apariencia onírica que recuerda a una experiencia psicodélica en las imágenes deliberadamente sobreprocesadas. [1] [2] [3]

El programa de Google popularizó el término “sueño” (profundo) para referirse a la generación de imágenes que producen activaciones deseadas en una red profunda entrenada , y el término ahora se refiere a una colección de enfoques relacionados.

Historia

El software DeepDream, originado en una red convolucional profunda cuyo nombre en código era "Origen" en honor a la película del mismo nombre , [1] [2] [3] fue desarrollado para el Desafío de reconocimiento visual a gran escala ImageNet (ILSVRC) en 2014 [3] y lanzado en julio de 2015.

La idea y el nombre de los sueños se hicieron populares en Internet en 2015 gracias al programa DeepDream de Google. La idea data de los inicios de la historia de las redes neuronales [4] y se han utilizado métodos similares para sintetizar texturas visuales [5] . Varios grupos de investigación desarrollaron ideas de visualización relacionadas (antes del trabajo de Google). [6] [7]

Después de que Google publicara sus técnicas e hiciera que su código fuera de código abierto , [8] aparecieron en el mercado varias herramientas en forma de servicios web, aplicaciones móviles y software de escritorio que permitían a los usuarios transformar sus propias fotos. [9]

Proceso

La imagen original (arriba) después de aplicar diez (centro) y cincuenta (abajo) iteraciones de DeepDream, la red ha sido entrenada para percibir perros y luego correr hacia atrás.

El software está diseñado para detectar caras y otros patrones en imágenes, con el objetivo de clasificar imágenes automáticamente. [10] Sin embargo, una vez entrenada, la red también se puede ejecutar a la inversa, pidiéndole que ajuste ligeramente la imagen original para que una neurona de salida dada (por ejemplo, la de las caras o ciertos animales) produzca una puntuación de confianza más alta. Esto se puede utilizar para visualizaciones para comprender mejor la estructura emergente de la red neuronal, y es la base del concepto DeepDream. Este procedimiento de inversión nunca es perfectamente claro e inequívoco porque utiliza un proceso de mapeo de uno a muchos . [11] Sin embargo, después de suficientes reiteraciones, incluso las imágenes inicialmente desprovistas de las características buscadas se ajustarán lo suficiente como para que resulte una forma de pareidolia , por la cual se generan imágenes psicodélicas y surrealistas algorítmicamente. La optimización se parece a la retropropagación ; sin embargo, en lugar de ajustar los pesos de la red, los pesos se mantienen fijos y se ajusta la entrada.

Por ejemplo, se puede alterar una imagen existente para que se parezca más a un gato y la imagen mejorada resultante se puede volver a introducir en el procedimiento. [2] Este uso se asemeja a la actividad de buscar animales u otros patrones en las nubes.

La aplicación del descenso de gradiente de forma independiente a cada píxel de la entrada produce imágenes en las que los píxeles adyacentes tienen poca relación y, por lo tanto, la imagen tiene demasiada información de alta frecuencia. Las imágenes generadas se pueden mejorar en gran medida al incluir un prior o regularizador que prefiera entradas que tengan estadísticas de imagen naturales (sin una preferencia por ninguna imagen en particular) o que sean simplemente suaves. [7] [12] [13] Por ejemplo, Mahendran et al. [12] utilizaron el regularizador de variación total que prefiere imágenes que sean constantes por partes. Varios regularizadores se analizan con más detalle en Yosinski et al. [13] Más recientemente, se publicó una exploración visual en profundidad de las técnicas de visualización y regularización de características. [14]

La citada semejanza de las imágenes con las alucinaciones inducidas por LSD y psilocibina sugiere una semejanza funcional entre las redes neuronales artificiales y capas particulares de la corteza visual. [15]

Las redes neuronales como DeepDream tienen analogías biológicas que brindan información sobre el procesamiento cerebral y la formación de la conciencia. Los alucinógenos como la DMT alteran la función del sistema serotoninérgico que está presente dentro de las capas de la corteza visual. Las redes neuronales se entrenan con vectores de entrada y se alteran por variaciones internas durante el proceso de entrenamiento. Las modificaciones de entrada e internas representan el procesamiento de señales exógenas y endógenas respectivamente en la corteza visual. A medida que se modifican las variaciones internas en las redes neuronales profundas, la imagen de salida refleja estos cambios. Esta manipulación específica demuestra cómo los mecanismos cerebrales internos son análogos a las capas internas de las redes neuronales. Las modificaciones del nivel de ruido interno representan cómo los alucinógenos omiten la información sensorial externa, lo que lleva a que las concepciones preconcebidas internas influyan fuertemente en la percepción visual. [16]

Uso

Una fotografía de tres hombres en una piscina, muy procesada con DeepDream.

La idea de soñar se puede aplicar a neuronas ocultas (internas) distintas de las de la salida, lo que permite explorar los roles y las representaciones de varias partes de la red. [13] También es posible optimizar la entrada para satisfacer una sola neurona (este uso a veces se denomina Maximización de la Actividad) [17] o una capa entera de neuronas.

Si bien soñar se utiliza con mayor frecuencia para visualizar redes o producir arte informático, recientemente se ha propuesto que agregar entradas "soñadas" al conjunto de entrenamiento puede mejorar los tiempos de entrenamiento para abstracciones en Ciencias de la Computación. [18]

También se ha demostrado que el modelo DeepDream tiene aplicación en el campo de la historia del arte . [19]

DeepDream se utilizó para el vídeo musical de Foster the People para la canción " Doing It for the Money ". [20]

En 2017, un grupo de investigación de la Universidad de Sussex creó una máquina de alucinaciones , aplicando el algoritmo DeepDream a un video panorámico pregrabado, lo que permite a los usuarios explorar entornos de realidad virtual para imitar la experiencia de sustancias psicoactivas y/o condiciones psicopatológicas. [21] Pudieron demostrar que las experiencias subjetivas inducidas por la máquina de alucinaciones diferían significativamente de los videos de control (no "alucinógenos"), mientras que tenían similitudes fenomenológicas con el estado psicodélico (después de la administración de psilocibina).

En 2021, un estudio publicado en la revista Entropy demostró la similitud entre DeepDream y la experiencia psicodélica real con evidencia neurocientífica . [22] Los autores registraron la electroencefalografía ( EEG ) de los participantes humanos durante la visión pasiva de un clip de película y su contraparte generada por DeepDream. Descubrieron que el video de DeepDream desencadenó una mayor entropía en la señal del EEG y un mayor nivel de conectividad funcional entre las áreas del cerebro, [22] ambos biomarcadores bien conocidos de la experiencia psicodélica real. [23]

En 2022, un grupo de investigación coordinado por la Universidad de Trento "midió la flexibilidad cognitiva y la creatividad de los participantes después de la exposición a videos panorámicos de realidad virtual y sus contrapartes alucinatorias generadas por el algoritmo DeepDream... después de la exposición psicodélica simulada, los individuos exhibieron... una contribución atenuada del proceso automático y la dinámica caótica subyacente a sus procesos de decisión, presumiblemente debido a una reorganización en la dinámica cognitiva que facilita la exploración de estrategias de decisión poco comunes e inhibe las elecciones automatizadas". [24]

Véase también

Referencias

  1. ^ ab Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike (2015). "DeepDream: un ejemplo de código para visualizar redes neuronales". Investigación de Google. Archivado desde el original el 8 de julio de 2015.
  2. ^ abc Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike (2015). "Inceptionism: Going Deeper into Neural Networks" (Incepción: profundizando en las redes neuronales). Investigación de Google. Archivado desde el original el 3 de julio de 2015.
  3. ^ abc Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott E.; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). "Profundizando con las convoluciones". Conferencia IEEE sobre Visión artificial y reconocimiento de patrones, CVPR 2015, Boston, MA, EE. UU., 7 al 12 de junio de 2015. IEEE Computer Society. págs. 1–9. arXiv : 1409.4842 . doi :10.1109/CVPR.2015.7298594.
  4. ^ Lewis, JP (1988). "Creación por refinamiento: un paradigma de creatividad para redes de aprendizaje por descenso de gradiente". IEEE International Conference on Neural Networks . IEEE International Conference on Neural Networks. pp. 229-233 vol.2. doi :10.1109/ICNN.1988.23933. ISBN 0-7803-0999-5.
  5. ^ Portilla, J; Simoncelli, Eero (2000). "Un modelo de textura paramétrico basado en estadísticas conjuntas de coeficientes wavelet complejos". Revista Internacional de Visión por Computador . 40 : 49–70. doi :10.1023/A:1026553619983. S2CID  2475577.
  6. ^ Erhan, Dumitru. (2009). Visualización de características de capas superiores de una red profunda . Taller sobre aprendizaje de jerarquías de características de la Conferencia Internacional sobre Aprendizaje Automático. S2CID  15127402.
  7. ^ ab Simonyan, Karen; Vedaldi, Andrea; Zisserman, Andrew (2014). Deep Inside Convolucional Networks: Visualising Image Classification Models and Saliency Maps . Taller de la Conferencia Internacional sobre Representaciones de Aprendizaje . arXiv : 1312.6034 .
  8. ^ deepdream en GitHub
  9. ^ Daniel Culpan (3 de julio de 2015). "Estas imágenes de "sueños profundos" de Google son extrañamente fascinantes". Wired . Consultado el 25 de julio de 2015 .
  10. ^ Rich McCormick (7 de julio de 2015). "Miedo y asco en Las Vegas es aterrador visto a través de los ojos de una computadora". The Verge . Consultado el 25 de julio de 2015 .
  11. ^ Hayes, Brian (2015). "Visión artificial y alucinaciones informáticas". American Scientist . 103 (6): 380. doi : 10.1511/2015.117.380 . ISSN  0003-0996.
  12. ^ ab Mahendran, Aravindh; Vedaldi, Andrea (2015). "Comprensión de las representaciones de imágenes profundas invirtiéndolas". Conferencia IEEE de 2015 sobre visión artificial y reconocimiento de patrones (CVPR) . Conferencia IEEE sobre visión artificial y reconocimiento de patrones. págs. 5188–5196. arXiv : 1412.0035 . doi :10.1109/CVPR.2015.7299155. ISBN 978-1-4673-6964-0.
  13. ^ abc Yosinski, Jason; Clune, Jeff; Nguyen, Anh; Fuchs, Thomas (2015). Comprensión de las redes neuronales a través de la visualización profunda . Taller sobre aprendizaje profundo, Conferencia internacional sobre aprendizaje automático (ICML). Taller sobre aprendizaje profundo. arXiv : 1506.06579 .
  14. ^ Olah, Chris; Mordvintsev, Alexander; Schubert, Ludwig (7 de noviembre de 2017). "Visualización de características". Distill . 2 (11). doi : 10.23915/distill.00007 . ISSN  2476-0757.
  15. ^ LaFrance, Adrienne (3 de septiembre de 2015). "Cuando los robots alucinan". The Atlantic . Consultado el 24 de septiembre de 2015 .
  16. ^ Timmermann, Christopher (12 de diciembre de 2020). "Modelos de redes neuronales para alucinaciones visuales inducidas por DMT". Neurociencia de la conciencia . 2020 (1). NIH: niaa024. doi :10.1093/nc/niaa024. PMC 7734438 . PMID  33343929. 
  17. ^ Nguyen, Anh; Dosovitskiy, Alexey; Yosinski, Jason; Brox, Thomas (2016). Sintetización de las entradas preferidas para neuronas en redes neuronales a través de redes generadoras profundas . arxiv. arXiv : 1605.09304 . Código Bibliográfico :2016arXiv160509304N.
  18. ^ Arora, Sanjeev; Liang, Yingyu; Tengyu, Ma (2016). ¿Por qué las redes profundas son reversibles? Una teoría simple, con implicaciones para el entrenamiento . arxiv. arXiv : 1511.05653 . Bibcode :2015arXiv151105653A.
  19. ^ Spratt, Emily L. (2017). "Formulaciones de sueños y redes neuronales profundas: temas humanísticos en la iconología de la imagen aprendida por máquina" (PDF) . Kunsttexte . 4 . Humboldt-Universität zu Berlin. arXiv : 1802.01274 . Bibcode :2018arXiv180201274S.
  20. ^ fosterthepeopleVEVO (11 de agosto de 2017), Foster The People - Lo hago por dinero , consultado el 15 de agosto de 2017
  21. ^ Suzuki, Keisuke (22 de noviembre de 2017). "Una plataforma de realidad virtual de sueños profundos para estudiar la fenomenología perceptual alterada". Sci Rep . 7 (1): 15982. Bibcode :2017NatSR...715982S. doi :10.1038/s41598-017-16316-2. PMC 5700081 . PMID  29167538. 
  22. ^ ab Greco, Antonino; Gallitto, Giuseppe; D'Alessandro, Marco; Rastelli, Clara (julio de 2021). "Aumento de la dinámica entrópica del cerebro durante la fenomenología perceptual alterada inducida por sueños profundos". Entropía . 23 (7): 839. Bibcode :2021Entrp..23..839G. doi : 10.3390/e23070839 . ISSN  1099-4300. PMC 8306862 . PMID  34208923. 
  23. ^ Carhart-Harris, Robin ; Leech, Robert; Hellyer, Peter; Shanahan, Murray; Feilding, Amanda; Tagliazucchi, Enzo; Chialvo, Dante; Nutt, David (2014). "El cerebro entrópico: una teoría de los estados conscientes informada por la investigación de neuroimagen con drogas psicodélicas". Frontiers in Human Neuroscience . 8 : 20. doi : 10.3389/fnhum.2014.00020 . ISSN  1662-5161. PMC 3909994 . PMID  24550805. 
  24. ^ Rastelli, Clara; Greco, Antonino; Kennett, Yoed; Finocchiaro, Chiara; De Pisapia, Nicola (7 de marzo de 2022). "Las alucinaciones visuales simuladas en realidad virtual mejoran la flexibilidad cognitiva". Representante de ciencia . 12 (1): 4027. Código bibliográfico : 2022NatSR..12.4027R. doi :10.1038/s41598-022-08047-w. PMC 8901713 . PMID  35256740. 

Enlaces externos