Estado-Acción-Recompensa-Estado-Acción (SARSA)

El nombre alternativo SARSA, propuesto por Rich Sutton, sólo se mencionó como nota a pie de página.

[2]​ Algunos autores utilizan una convención ligeramente diferente y escriben la quíntuple (St, At, Rt, St+1, At+1), dependiendo del paso temporal en el que se asigne formalmente la recompensa.

Los valores Q representan la posible recompensa recibida en el siguiente paso temporal por realizar la acción a en el estado s, más la recompensa futura descontada recibida de la siguiente observación del estado-acción.

Algunas optimizaciones del aprendizaje Q de Watkin pueden aplicarse a SARSA.

[3]​ El índice de aprendizaje determina hasta qué punto la información recién adquirida anula la antigua.

Si el factor de descuento es igual o superior a 1, el valor

Esto permite un aprendizaje inmediato en caso de recompensas deterministas fijas.