Q-learning

[1]​ Q-learning puede identificar una norma de acción-selección óptima para cualquier PDMF, dado un tiempo de exploración infinito y una norma parcialmente aleatoria[1]​ "Q" nombra la función que devuelve la recompensa que proporciona el refuerzo y representa la "calidad" de una acción tomada en un estado dado.

[2]​ El aprendizaje por refuerzo involucra a un agente, un conjunto de estados

La ejecución de una acción en un estado concreto le proporciona una recompensa al agente (una puntuación numérica).

Una estrategia es entrar al tren tan pronto como se abran las puertas, minimizando el tiempo inicial de espera.

No obstante, si el tren está lleno, la entrada será más lenta porque los pasajeros del interior estarán luchando por salir simultáneamente.

Por ello, esperar a que otros pasajeros salgan del tren antes de entrar supone una estrategia con mayor recompensa.

también puede ser interpretada como la probabilidad de tener éxito (o sobrevivir) en cada paso

se inicializa a un valor arbitrario constante (escogido por el programador).

Un factor de 0 hace que el agente no aprenda (únicamente aprovechando el conocimiento previo), mientras un factor de 1 hace que el agente considere solo la información más reciente (ignorando el conocimiento previo para explorar posibilidades).

Cuándo el problema es estocástico, el algoritmo converge bajo determinadas condiciones técnicas en el índice de aprendizaje que requiere un descenso hasta cero.

En la práctica, a menudo se utiliza un índice de aprendizaje constante, como

, sin un estado terminal, o si el agente nunca llega a uno, todos los historiales se vuelven infinitamente largos, y funciones aditivas, recompensas discontinuas generalmente tienden a infinito.

[5]​ En ese caso, empezando con un factor de descuento menor y aumentándolo hacia su valor final se acelera el aprendizaje.

Esto permite el aprendizaje inmediato en caso de recompensas deterministas fijas.

[8]​ Sin embargo, la RCI parece ser consistente con el comportamiento humano en repetidos experimentos de elección binaria.

[9]​ Esto hace posible la aplicación del algoritmo a problemas más largos, incluso cuando el espacio de estados es continuo.

Una solución es utilizar una red neuronal artificial (adaptado) como aproximador de funciones.

[10]​ La aproximación de funciones puede acelerar el aprendizaje en problemas finitos, debido a que el algoritmo puede generalizar experiencias previas a estados no vistos anteriormente.

Esta técnica para disminuir el espacio de acciones/estados cuantifica los posibles valores.

Considérese el ejemplo de aprender a equilibrar un palo en un dedo.

Esto produce un vector de cuatro elementos que describe un estado, i.e.

Para encoger el espacio posible de las acciones válidas se pueden descartar muchos valores.

Ocho años antes en 1981 el mismo problema, bajo el nombre de “aprendizaje por refuerzo tardío”, que fue solucionado por Bozinovski's Crossbar Adaptive Array (CAA).

La arquitectura introdujo el término “evaluación de estado” en aprendizaje por refuerzo.

CAA calcula los valores de estados verticalmente y las acciones horizontalmente (el "crossbar").

Este sistema de aprendizaje fue el precursor del algoritmo Q-learning.

El aprendizaje por refuerzo es inestable o divergente cuando un aproximador de funciones no lineales se utiliza para representar Q.

[19]​ Puesto que el valor futuro máximo aproximado de una acción en Q-learning se evalúa utilizando la misma función Q que en la política de acción actualmente seleccionada, en entornos ruidosos Q-learning a veces puede sobrestimar los valores de la acción, retrasando el aprendizaje.

Se propuso una variante llamada Q-learning doble para corregir esto.

Q-learning doble[20]​ es un algoritmo de aprendizaje por refuerzo sin política, donde una política diferente se utiliza para la evaluación del valor que se usa para seleccionar próxima acción.

Tabla de estados de Q-learning por acciones inicializada a cero, entonces cada celda se actualiza con entrenamiento.