El aprendizaje por refuerzo o aprendizaje reforzado (en inglés: reinforcement learning) es un área del aprendizaje automático (AA) inspirada en la psicología conductista, cuya ocupación es determinar qué acciones debe escoger un agente de software en un entorno dado con el fin de maximizar alguna noción de "recompensa" o premio acumulado.
La principal diferencia entre las técnicas clásicas y los algoritmos de aprendizaje por refuerzo es que para estos últimos no es necesario el conocimiento de los MDP y se dirigen a grandes MDP donde los métodos exactos se convierten en no viables.
El aprendizaje por refuerzo difiere del estándar de aprendizaje supervisado en el que los pares de entradas / salidas correctas nunca se presentan, ni acciones subóptimas corregidas explícitamente.
El modelo básico de aprendizaje por refuerzo consiste en: Las reglas son a menudo estocásticas.
La observación implica típicamente la recompensa inmediata al escalar asociado con la última transición.
del conjunto de acciones, que se envía posteriormente al medio ambiente.
Se ha aplicado con éxito a diversos problemas, entre ellos, el control de robots, telecomunicaciones, backgammon y damas.
El caso de (pequeños) MDP finitos está relativamente bien entendido por ahora.
-greedy, cuando el agente elige la acción que se cree tiene el mejor efecto a largo plazo, con una probabilidad
, y, de lo contrario, se elige una acción uniformemente al azar.
Aunque el tema de la exploración se tiene en cuenta, e incluso si el estado era observable (que asumimos a partir de ahora), el problema sigue siendo saber qué acciones son buenas basadas en la experiencia pasada.
-ésima transición, el estado inicial se realiza un muestreo al azar de
denota el tiempo aleatorio cuando se alcanza un estado terminal, es decir, el momento en que el episodio termina.
En el caso de problemas no episódicos el retorno a menudo se descuenta,:
dando lugar a la esperado criterio de recompensa para un descuento total.
Aunque esto parece bastante inocente, el descuento es de hecho un problema si uno se preocupa por el rendimiento en línea.
El problema entonces es especificar un algoritmo que puede ser usado para encontrar una póliza con el máximo rendimiento esperado.
De hecho, la búsqueda se puede restringir aún más a las políticas estacionarias deterministas.
El enfoque por fuerza bruta implica las dos etapas siguientes: Un problema con esto es que el número de políticas puede ser extremadamente grande, o incluso infinito.
Estos problemas se pueden aliviar utilizamos alguna estructura y permitir que las muestras sean generadas a partir de una política para influir en las estimaciones realizadas por otro.
En la práctica a menudo se evita el cómputo y el almacenamiento de la nueva política, pero utiliza la evaluación perezosa para aplazar el cómputo de las acciones que maximizan cuando realmente sea necesario.
Observamos de pasada que el actor crítico métodos pertenecen a esta categoría.
Esto también puede ayudar, hasta cierto punto con el tercer problema, aunque una solución mejor cuando los rendimientos tienen alta varianza es utilizar diferencia temporal de Sutton (TD) métodos que se basan en la recursiva ecuación de Bellman.
que asigna un vector de dimensión finita a cada par estado-acción.
Un método alternativo para encontrar una buena política es buscar directamente en (algún subconjunto) del espacio de la política, en cuyo caso el problema se convierte en una instancia de optimización estocástica.
Desde una expresión analítica para el gradiente no está disponible, uno debe confiar en una estimación ruidosa.
Tal estimación puede construirse de muchas maneras, dando lugar a algoritmos como el método Williams' Reinforce.
Por ejemplo, esto sucede cuando está en problemas episódicos las trayectorias son largas y la varianza de los retornos es grande.
Aunque los límites de rendimiento en tiempo finito aparecieron muchos algoritmos en los últimos años, se espera que estos límites mejores ya que son bastante vagos y por lo tanto se necesita más trabajo para comprender mejor las ventajas relativas, así como las limitaciones de estos algoritmos.
Para algoritmos incrementales se han resuelto problemas de convergencia asintótica.