Aprendizaje por Refuerzo Cuántico

La forma de abordar los problemas principales del aprendizaje automático mediante la computación cuántica permite construir una estrategia por exploración (basada en un criterio de recompensas a aprender por el agente) cuadráticamente más rápida respecto del aprendizaje por refuerzo clásico.

Los algoritmos relacionados con el aprendizaje por refuerzo cuántico se basan en emplear la propiedad de la superposición cuántica, para expresar la acción del agente y estado del medio-ambiente con el que interacciona como una combinación lineal de auto-acciones y de estados del medio-ambiente, pesados con sus respectivos pesos probabilísticos.

[1] Existen diferentes tipos de Aprendizajes Automáticos:[2] el supervisado, el no supervisado y el aprendizaje por refuerzo.

Concretamente, el Aprendizaje por Refuerzo, es lo que más se parece a "aprender".

Dadas unas condiciones de reglas y metas, el agente consigue recompensas con un valor equivalente a la acción que ha tomado.

Es entonces cuando el agente "aprende" a tomar mejores o peores acciones de cara al siguiente episodio (estudio de una nueva estrategia).

Los problemas que se abordan con aprendizaje supervisado y no supervisado son en general problemas de agrupamiento de datos y análisis de datos (data-learning),[3][4] sin embargo, el aprendizaje por refuerzo es útil para aplicaciones relacionadas con la Inteligencia Artificial.

[5][6] El aprendizaje por refuerzo cuántico no ha recibido la misma atención que el aprendizaje supervisado y no supervisado cuántico.

Sin embargo es un tema que se ha estudiado a fondo: por ejemplo se sugiere que QIP (Quantum Information Processing) podría nuevas maneras para evaluar políticas,[7] y se ha demostrado, por primera vez en el Aprendizaje por Refuerzo cuántico, una ventaja cuadrática utilizando un algoritmo cuántico sobre el algoritmo clásico de Aprendizaje por Refuerzo, Projective Simulation.

Esquemáticamente, el aprendizaje por refuerzo automático estudia en cada episodio una posible estrategia, evaluándose al final la bondad de la estrategia en función de la recompensa obtenida consecuencia de la interacción entre el agente y el medio en cada acción.

El aprendizaje por refuerzo cuántico estudia las posibles estrategias (entre un estado y otro) una vez interactúa, conociendo todas las recompensas que podría haber obtenido.

[9] En la computación cuántica podemos expresar un cúbit en superposición como combinación lineal de estados

Empleando estas propiedades básicas, se puede expresar un número finito de auto-acciones y auto-estados como: Los coeficientes

se corresponden con las amplitudes de probabilidad del estado del entorno y de la acción, respectivamente.

Este enfoque permite acelerar el procedimiento usual del aprendizaje por refuerzo clásico, ya que implementa un algoritmo cuántico que actúa sobre un estado

del entorno, evaluando todas las posibles acciones en superposición sobre el mismo estado, que posteriormente evoluciona al estado

En el aprendizaje por refuerzo cuántico el agente debe de aprender una política

, que maximiza la recompensa obtenida por cada acción para cada estado entorno.

El objetivo es entonces amplificar la probabilidad de las acciones con mayor recompensa.

Es claro que mediante un procedimiento de prueba y error, se busca el

Primero se prepara una acción combinación lineal de auto-acciones con los mismos pesos probabilísticos tal que: Este estado se construye aplicando n puertas de Hadamard en secuencia a n cúbits independientes con estados iniciales

: Para construir el algoritmo de Grover combinamos dos reflexiones,

, que se definen de la siguiente forma: Donde

Una iteración del algoritmo de Grover se construye combinando estos dos operadores:

El algoritmo de aprendizaje por refuerzo cuántico sigue el siguiente protocolo: Para una tolerancia dada (

), el algoritmo se detendrá cuando la función criterio converja tal que

Como el aprendizaje es estrictamente positivo y decreciente, se asegura la convergencia de la Cadena de Markov al valor óptimo

: Los criterios de convergencia para un algoritmo estocástico como es el anteriormente explicado fueron probados por Bertsekas y Tsitsiklis.

[10] Muchos algoritmos del aprendizaje por refuerzo clásico son estocásticos.

Sin embargo, este algoritmo presenta las siguientes diferencias (que permiten comparar la convergencia del algoritmo cuántico respecto del clásico, mientras la anterior condición se satisfaga):