El algoritmo de aprendizaje de políticas de proceso de decisión de Markov ( SARSA ) se utiliza en el área de aprendizaje por refuerzo del aprendizaje automático . Fue propuesto por Rummery y Niranjan en una nota técnica [1] con el nombre de " Q -Learning conexionista modificado" (MCQ-L). El nombre alternativo SARSA, propuesto por Rich Sutton , solo se mencionó como nota al pie.
Este nombre refleja el hecho de que la función principal para actualizar el valor Q depende del estado actual del agente " S 1 ", la acción que el agente elige " A 1 ", la recompensa " R 2 " que el agente obtiene por elegir esta acción, el estado " S 2 " en el que entra el agente después de tomar esa acción y, finalmente, la siguiente acción " A 2 " que el agente elige en su nuevo estado. El acrónimo para el quíntuple (S t , A t , R t+1 , S t+1 , A t+1 ) es SARSA. [2] Algunos autores utilizan una convención ligeramente diferente y escriben el quíntuple (S t , A t , R t , S t+1 , A t+1 ), dependiendo de en qué paso de tiempo se asigna formalmente la recompensa. El resto del artículo utiliza la convención anterior.
Un agente de SARSA interactúa con el entorno y actualiza la política en función de las acciones realizadas, por lo que se lo conoce como un algoritmo de aprendizaje basado en políticas . El valor Q de una acción de estado se actualiza mediante un error, ajustado por la tasa de aprendizaje α. Los valores Q representan la posible recompensa recibida en el siguiente paso de tiempo por realizar la acción a en el estado s , más la recompensa futura descontada recibida de la siguiente observación de acción de estado.
El aprendizaje Q de Watkin actualiza una estimación de la función de valor de estado-acción óptima en función de la recompensa máxima de las acciones disponibles. Mientras que SARSA aprende los valores Q asociados con la adopción de la política que sigue, el aprendizaje Q de Watkin aprende los valores Q asociados con la adopción de la política óptima mientras sigue una política de exploración/explotación .
Algunas optimizaciones del Q-learning de Watkin se pueden aplicar a SARSA. [3]
La tasa de aprendizaje determina en qué medida la información recién adquirida prevalece sobre la información anterior. Un factor de 0 hará que el agente no aprenda nada, mientras que un factor de 1 hará que el agente considere solo la información más reciente.
El factor de descuento determina la importancia de las recompensas futuras. Un factor de descuento de 0 hace que el agente sea "oportunista" o "miope", por ejemplo, [4] al considerar únicamente las recompensas actuales, mientras que un factor cercano a 1 hará que se esfuerce por lograr una recompensa alta a largo plazo. Si el factor de descuento alcanza o supera 1, los valores pueden divergir.
Dado que SARSA es un algoritmo iterativo, asume implícitamente una condición inicial antes de que se produzca la primera actualización. Un valor inicial alto (infinito), también conocido como "condiciones iniciales optimistas", [5] puede fomentar la exploración: sin importar qué acción se lleve a cabo, la regla de actualización hace que tenga valores más altos que la otra alternativa, lo que aumenta su probabilidad de elección. En 2013 se sugirió que la primera recompensa podría usarse para restablecer las condiciones iniciales. Según esta idea, la primera vez que se realiza una acción, la recompensa se usa para establecer el valor de . Esto permite un aprendizaje inmediato en caso de recompensas deterministas fijas. Este enfoque de restablecimiento de las condiciones iniciales (RIC) parece ser coherente con el comportamiento humano en experimentos de elección binaria repetidos. [6]