La computación de reservorios es un marco de trabajo para la computación derivado de la teoría de redes neuronales recurrentes que mapea las señales de entrada en espacios computacionales de dimensiones superiores a través de la dinámica de un sistema fijo y no lineal llamado reservorio. [1] Después de que la señal de entrada se introduce en el reservorio, que se trata como una "caja negra", se entrena un mecanismo de lectura simple para leer el estado del reservorio y mapearlo al resultado deseado. [1] El primer beneficio clave de este marco de trabajo es que el entrenamiento se realiza solo en la etapa de lectura, ya que la dinámica del reservorio es fija. [1] El segundo es que la potencia computacional de los sistemas disponibles naturalmente, tanto clásicos como mecánicos cuánticos, se puede utilizar para reducir el costo computacional efectivo. [2]
El concepto de computación de reservorio se origina en el uso de conexiones recursivas dentro de redes neuronales para crear un sistema dinámico complejo. [3] Es una generalización de arquitecturas de redes neuronales anteriores, como redes neuronales recurrentes, máquinas de estado líquido y redes de eco-estado . La computación de reservorio también se extiende a sistemas físicos que no son redes en el sentido clásico, sino sistemas continuos en el espacio y/o tiempo: por ejemplo, un "balde de agua" literal puede servir como un reservorio que realiza cálculos sobre entradas dadas como perturbaciones de la superficie. [4] Se encontró que la complejidad resultante de tales redes neuronales recurrentes era útil para resolver una variedad de problemas, incluido el procesamiento del lenguaje y el modelado de sistemas dinámicos. [3] Sin embargo, el entrenamiento de redes neuronales recurrentes es desafiante y computacionalmente costoso. [3] La computación de reservorio reduce esos desafíos relacionados con el entrenamiento al fijar la dinámica del reservorio y solo entrenar la capa de salida lineal. [3]
Una gran variedad de sistemas dinámicos no lineales pueden servir como un depósito para realizar cálculos. En los últimos años, los láseres semiconductores han atraído un interés considerable, ya que los cálculos pueden ser rápidos y energéticamente eficientes en comparación con los componentes eléctricos.
Los avances recientes tanto en IA como en la teoría de la información cuántica han dado lugar al concepto de redes neuronales cuánticas . [5] Estas son prometedoras en el procesamiento de información cuántica, que es un desafío para las redes clásicas, pero también pueden encontrar aplicación en la solución de problemas clásicos. [5] [6] En 2018, se demostró una realización física de una arquitectura de computación cuántica de reservorio en forma de espines nucleares dentro de un sólido molecular. [6] Sin embargo, los experimentos de espín nuclear en [6] no demostraron la computación cuántica de reservorio per se, ya que no implicaron el procesamiento de datos secuenciales. Más bien, los datos eran entradas vectoriales, lo que hace que esto sea más precisamente una demostración de la implementación cuántica de un algoritmo de fregadero de cocina aleatorio [7] (también conocido como máquinas de aprendizaje extremo en algunas comunidades). En 2019, se propuso otra posible implementación de procesadores de reservorio cuántico en forma de redes fermiónicas bidimensionales. [6] En 2020, se propuso y demostró la realización de la computación de reservorio en computadoras cuánticas basadas en compuertas en computadoras cuánticas superconductoras de corto plazo de IBM basadas en la nube. [8]
Los ordenadores de reservorio se han utilizado para fines de análisis de series temporales . En particular, algunos de sus usos incluyen la predicción de series temporales caóticas , [9] [10] la separación de señales caóticas , [11] y la inferencia de enlaces de redes a partir de su dinámica. [12]
El "depósito" en la computación de reservorios es la estructura interna del ordenador y debe tener dos propiedades: debe estar formado por unidades individuales no lineales y debe ser capaz de almacenar información. La no linealidad describe la respuesta de cada unidad a la entrada, que es lo que permite a los ordenadores de reservorios resolver problemas complejos. Los reservorios pueden almacenar información conectando las unidades en bucles recurrentes, donde la entrada anterior afecta a la siguiente respuesta. El cambio en la reacción debido al pasado permite entrenar a los ordenadores para completar tareas específicas. [13]
Los reservorios pueden ser virtuales o físicos. [13] Los reservorios virtuales se generan típicamente de manera aleatoria y están diseñados como redes neuronales. [13] [3] Los reservorios virtuales pueden diseñarse para que tengan no linealidad y bucles recurrentes, pero, a diferencia de las redes neuronales, las conexiones entre unidades son aleatorias y permanecen inalteradas durante el cálculo. [13] Los reservorios físicos son posibles debido a la no linealidad inherente de ciertos sistemas naturales. La interacción entre las ondulaciones en la superficie del agua contiene la dinámica no lineal requerida en la creación de reservorios, y se desarrolló un RC de reconocimiento de patrones ingresando primero ondulaciones con motores eléctricos y luego registrando y analizando las ondulaciones en la lectura. [1]
La lectura es una capa de red neuronal que realiza una transformación lineal en la salida del depósito. [1] Los pesos de la capa de lectura se entrenan analizando los patrones espaciotemporales del depósito después de la excitación por entradas conocidas y utilizando un método de entrenamiento como una regresión lineal o una regresión de Ridge . [1] Como su implementación depende de los patrones espaciotemporales del depósito, los detalles de los métodos de lectura se adaptan a cada tipo de depósito. [1] Por ejemplo, la lectura de una computadora de depósito que utiliza un contenedor de líquido como depósito podría implicar la observación de patrones espaciotemporales en la superficie del líquido. [1]
Un ejemplo temprano de computación de reservorio fue la red de reverberación de contexto. [14] En esta arquitectura, una capa de entrada alimenta un sistema dinámico de alta dimensión que es leído por un perceptrón de una sola capa entrenable . Se describieron dos tipos de sistema dinámico: una red neuronal recurrente con pesos aleatorios fijos y un sistema de reacción-difusión continuo inspirado en el modelo de morfogénesis de Alan Turing . En la capa entrenable, el perceptrón asocia las entradas actuales con las señales que reverberan en el sistema dinámico; se decía que estas últimas proporcionaban un "contexto" dinámico para las entradas. En el lenguaje de trabajos posteriores, el sistema de reacción-difusión sirvió como reservorio.
El modelo Tree Echo State Network (TreeESN) representa una generalización del marco de computación de reservorio a datos estructurados en árbol. [15]
Máquina caótica de estado líquido
El líquido (es decir, el depósito) de una máquina caótica de estados líquidos (CLSM), [16] [17] o depósito caótico, está formado por neuronas caóticas activas pero que estabilizan su actividad estableciéndose en una única hipótesis que describe las entradas entrenadas de la máquina. Esto contrasta con los tipos generales de depósitos que no se estabilizan. La estabilización del líquido se produce a través de la plasticidad sináptica y el control del caos que gobiernan las conexiones neuronales dentro del líquido. La CLSM mostró resultados prometedores en el aprendizaje de datos de series temporales sensibles. [16] [17]
Este tipo de procesamiento de información es más relevante cuando las señales de entrada dependientes del tiempo se apartan de la dinámica interna del mecanismo. [18] Estas desviaciones causan transitorios o altercados temporales que se representan en la salida del dispositivo. [18]
La extensión del marco de computación de reservorio hacia el aprendizaje profundo, con la introducción de Deep Reservoir Computing y del modelo Deep Echo State Network (DeepESN) [19] [20] [21] [22] permite desarrollar modelos entrenados de manera eficiente para el procesamiento jerárquico de datos temporales, al mismo tiempo que permite la investigación sobre el papel inherente de la composición en capas en redes neuronales recurrentes .
La computación cuántica de reservorios puede utilizar la naturaleza no lineal de las interacciones o procesos mecánicos cuánticos para formar los reservorios no lineales característicos [5] [6] [23] [8] pero también puede realizarse con reservorios lineales cuando la inyección de la entrada al reservorio crea la no linealidad. [24] La unión del aprendizaje automático y los dispositivos cuánticos está llevando al surgimiento de la computación neuromórfica cuántica como una nueva área de investigación. [25]
Los estados gaussianos son una clase paradigmática de estados de sistemas cuánticos de variable continua . [26] Aunque hoy en día se pueden crear y manipular en, por ejemplo, plataformas ópticas de última generación, [27] naturalmente robustas a la decoherencia , es bien sabido que no son suficientes para, por ejemplo, la computación cuántica universal porque las transformaciones que preservan la naturaleza gaussiana de un estado son lineales. [28] Normalmente, la dinámica lineal tampoco sería suficiente para la computación de yacimientos no trivial. Sin embargo, es posible aprovechar dicha dinámica para fines de computación de yacimientos considerando una red de osciladores armónicos cuánticos interactuantes e inyectando la entrada mediante restablecimientos de estado periódicos de un subconjunto de los osciladores. Con una elección adecuada de cómo los estados de este subconjunto de osciladores dependen de la entrada, los observables del resto de los osciladores pueden convertirse en funciones no lineales de la entrada adecuadas para la computación de yacimientos; De hecho, gracias a las propiedades de estas funciones, incluso la computación de yacimientos universal se hace posible combinando los observables con una función de lectura polinómica. [24] En principio, dichas computadoras de yacimientos podrían implementarse con procesos paramétricos ópticos multimodo controlados , [29] sin embargo, la extracción eficiente de la salida del sistema es un desafío, especialmente en el régimen cuántico donde se debe tener en cuenta la retroacción de la medición .
En esta arquitectura, el acoplamiento aleatorio entre sitios de la red otorga al yacimiento la propiedad de “caja negra” inherente a los procesadores de yacimientos. [5] Luego, el yacimiento se excita, lo que actúa como entrada, mediante un campo óptico incidente . La lectura se produce en forma de números ocupacionales de sitios de la red, que son funciones naturalmente no lineales de la entrada. [5]
En esta arquitectura, el acoplamiento mecánico cuántico entre los espines de los átomos vecinos dentro del sólido molecular proporciona la no linealidad necesaria para crear el espacio computacional de mayor dimensión. [6] Luego, el reservorio se excita mediante radiación electromagnética de radiofrecuencia sintonizada con las frecuencias de resonancia de los espines nucleares relevantes . [6] La lectura se produce midiendo los estados de espín nuclear. [6]
El modelo más común de computación cuántica es el modelo basado en puertas, en el que la computación cuántica se realiza mediante aplicaciones secuenciales de puertas cuánticas unitarias en qubits de una computadora cuántica. [30] En [8] se ha publicado una teoría para la implementación de la computación de reservorio en una computadora cuántica basada en puertas con demostraciones de prueba de principio en una serie de computadoras cuánticas superconductoras ruidosas de escala intermedia (NISQ) de IBM [31 ] .