stringtranslate.com

Estado-acción-recompensa-estado-acción

El algoritmo de aprendizaje de políticas de proceso de decisión de Markov ( SARSA ) se utiliza en el área de aprendizaje por refuerzo del aprendizaje automático . Fue propuesto por Rummery y Niranjan en una nota técnica [1] con el nombre de " Q -Learning conexionista modificado" (MCQ-L). El nombre alternativo SARSA, propuesto por Rich Sutton , solo se mencionó como nota al pie.

Este nombre refleja el hecho de que la función principal para actualizar el valor Q depende del estado actual del agente " S 1 ", la acción que el agente elige " A 1 ", la recompensa " R 2 " que el agente obtiene por elegir esta acción, el estado " S 2 " en el que entra el agente después de tomar esa acción y, finalmente, la siguiente acción " A 2 " que el agente elige en su nuevo estado. El acrónimo para el quíntuple (S t , A t , R t+1 , S t+1 , A t+1 ) es SARSA. [2] Algunos autores utilizan una convención ligeramente diferente y escriben el quíntuple (S t , A t , R t , S t+1 , A t+1 ), dependiendo de en qué paso de tiempo se asigna formalmente la recompensa. El resto del artículo utiliza la convención anterior.

Algoritmo

Un agente de SARSA interactúa con el entorno y actualiza la política en función de las acciones realizadas, por lo que se lo conoce como un algoritmo de aprendizaje basado en políticas . El valor Q de una acción de estado se actualiza mediante un error, ajustado por la tasa de aprendizaje α. Los valores Q representan la posible recompensa recibida en el siguiente paso de tiempo por realizar la acción a en el estado s , más la recompensa futura descontada recibida de la siguiente observación de acción de estado.

El aprendizaje Q de Watkin actualiza una estimación de la función de valor de estado-acción óptima en función de la recompensa máxima de las acciones disponibles. Mientras que SARSA aprende los valores Q asociados con la adopción de la política que sigue, el aprendizaje Q de Watkin aprende los valores Q asociados con la adopción de la política óptima mientras sigue una política de exploración/explotación .

Algunas optimizaciones del Q-learning de Watkin se pueden aplicar a SARSA. [3]

Hiperparámetros

Tasa de aprendizaje (alfa)

La tasa de aprendizaje determina en qué medida la información recién adquirida prevalece sobre la información anterior. Un factor de 0 hará que el agente no aprenda nada, mientras que un factor de 1 hará que el agente considere solo la información más reciente.

Factor de descuento (gamma)

El factor de descuento determina la importancia de las recompensas futuras. Un factor de descuento de 0 hace que el agente sea "oportunista" o "miope", por ejemplo, [4] al considerar únicamente las recompensas actuales, mientras que un factor cercano a 1 hará que se esfuerce por lograr una recompensa alta a largo plazo. Si el factor de descuento alcanza o supera 1, los valores pueden divergir.

Condiciones iniciales (Q ( S 0 , A 0 ))

Dado que SARSA es un algoritmo iterativo, asume implícitamente una condición inicial antes de que se produzca la primera actualización. Un valor inicial alto (infinito), también conocido como "condiciones iniciales optimistas", [5] puede fomentar la exploración: sin importar qué acción se lleve a cabo, la regla de actualización hace que tenga valores más altos que la otra alternativa, lo que aumenta su probabilidad de elección. En 2013 se sugirió que la primera recompensa podría usarse para restablecer las condiciones iniciales. Según esta idea, la primera vez que se realiza una acción, la recompensa se usa para establecer el valor de . Esto permite un aprendizaje inmediato en caso de recompensas deterministas fijas. Este enfoque de restablecimiento de las condiciones iniciales (RIC) parece ser coherente con el comportamiento humano en experimentos de elección binaria repetidos. [6]

Véase también

Referencias

  1. ^ " Aprendizaje Q en línea utilizando sistemas conexionistas" de Rummery y Niranjan (1994)
  2. ^ Aprendizaje por refuerzo: una introducción Richard S. Sutton y Andrew G. Barto (capítulo 6.4)
  3. ^ Wiering, Marco; Schmidhuber, Jürgen (1 de octubre de 1998). "Q (λ) rápido en línea" (PDF) . Aprendizaje automático . 33 (1): 105-115. doi : 10.1023/A:1007562800292 . ISSN  0885-6125. S2CID  8358530.
  4. ^ "Argumentos en contra del entrenamiento miope". 9 de julio de 2020. Consultado el 17 de mayo de 2023 .
  5. ^ "2.7 Valores iniciales optimistas". partialideas.net . Consultado el 28 de febrero de 2018 .
  6. ^ Shteingart, H; Neiman, T; Loewenstein, Y (mayo de 2013). "El papel de la primera impresión en el aprendizaje operante" (PDF) . J Exp Psychol Gen . 142 (2): 476–88. doi :10.1037/a0029550. PMID  22924882.