El nombre alternativo SARSA, propuesto por Rich Sutton, sólo se mencionó como nota a pie de página.
[2] Algunos autores utilizan una convención ligeramente diferente y escriben la quíntuple (St, At, Rt, St+1, At+1), dependiendo del paso temporal en el que se asigne formalmente la recompensa.
Los valores Q representan la posible recompensa recibida en el siguiente paso temporal por realizar la acción a en el estado s, más la recompensa futura descontada recibida de la siguiente observación del estado-acción.
Algunas optimizaciones del aprendizaje Q de Watkin pueden aplicarse a SARSA.
[3] El índice de aprendizaje determina hasta qué punto la información recién adquirida anula la antigua.
Si el factor de descuento es igual o superior a 1, el valor
Esto permite un aprendizaje inmediato en caso de recompensas deterministas fijas.