Sin modelo (aprendizaje por refuerzo)

En el aprendizaje por refuerzo (RL), un algoritmo sin modelo (a diferencia de uno basado en modelo) es un algoritmo que no estima la distribución de probabilidad de transición (y la función de recompensa ) asociada con el proceso de decisión de Markov (MDP), ^[1] que, en RL, representa el problema a resolver. La distribución de probabilidad de transición (o modelo de transición) y la función de recompensa a menudo se denominan colectivamente el "modelo" del entorno (o MDP), de ahí el nombre "sin modelo". Un algoritmo RL sin modelo puede considerarse como un algoritmo de prueba y error "explícito" . ^[1] Los ejemplos típicos de algoritmos sin modelo incluyen Monte Carlo RL, Sarsa y Q-learning .

En el aprendizaje por refuerzo sin modelo, la estimación de Monte Carlo (MC) es un componente central de una gran clase de algoritmos sin modelo. El algoritmo de aprendizaje MC es esencialmente una rama importante de la iteración generalizada de políticas, que tiene dos pasos que se alternan periódicamente, es decir, la evaluación de políticas (PEV) y la mejora de políticas (PIM). En este marco, cada política se evalúa primero por su función de valor correspondiente. Luego, en función del resultado de la evaluación, se completa una búsqueda voraz para generar una mejor política. La estimación MC se aplica principalmente al primer paso, es decir, la evaluación de políticas. La idea más simple, es decir, promediar los retornos de todas las muestras recolectadas, se utiliza para juzgar la efectividad de la política actual. A medida que se acumula más experiencia, la estimación convergerá al valor verdadero por la ley de los grandes números. Por lo tanto, la evaluación de políticas MC no requiere ningún conocimiento previo de la dinámica del entorno. En cambio, todo lo que necesita es experiencia, es decir, muestras de estado, acción y recompensa, que se generan a partir de la interacción con un entorno real. ^[2]

La estimación de la función de valor es fundamental para los algoritmos de refuerzo sin modelo. A diferencia de los métodos de Monte Carlo (MC), los métodos de diferencia temporal (TD) aprenden la función de valor reutilizando las estimaciones de valor existentes. Si uno tuviera que identificar una idea como central y novedosa para el aprendizaje de refuerzo, sin duda sería la diferencia temporal. TD tiene la capacidad de aprender de una secuencia incompleta de eventos sin esperar el resultado final. TD tiene la capacidad de aproximar el rendimiento futuro como una función del estado actual. De manera similar a MC, TD solo usa la experiencia para estimar la función de valor sin conocer ningún conocimiento previo de la dinámica del entorno. La ventaja de TD radica en el hecho de que puede actualizar la función de valor en función de su estimación actual. Por lo tanto, los algoritmos de aprendizaje de TD pueden aprender de episodios incompletos o tareas continuas de manera paso a paso, mientras que MC debe implementarse de manera episodio por episodio. ^[2]

Algoritmos de aprendizaje por refuerzo sin modelo

Los algoritmos de aprendizaje por refuerzo sin modelo pueden comenzar desde un candidato de política en blanco y lograr un rendimiento sobrehumano en muchas tareas complejas, incluidos los juegos de Atari, StarCraft y el Go chino. Las redes neuronales profundas son responsables de los recientes avances en inteligencia artificial y se pueden combinar con el aprendizaje por refuerzo para crear algo asombroso, como AlphaGo de DeepMind. Los algoritmos de aprendizaje por refuerzo sin modelo convencionales incluyen Deep Q-Network (DQN), Dueling DQN, Double DQN (DDQN), Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO), Asynchronous Advantage Actor-Critic (A3C), Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3), Soft Actor-Critic (SAC), Distributional Soft Actor-Critic (DSAC), etc. ^[2] A continuación se enumeran algunos algoritmos sin modelo, especialmente aquellos con aprendizaje profundo.

Referencias

^ ab Sutton, Richard S.; Barto, Andrew G. (13 de noviembre de 2018). Aprendizaje por refuerzo: una introducción (PDF) (segunda edición). Un libro de Bradford. p. 552. ISBN 0262039249. Recuperado el 18 de febrero de 2019 .
^ abc Li, Shengbo Eben (2023). Aprendizaje por refuerzo para la toma de decisiones secuenciales y el control óptimo (primera edición). Springer Verlag, Singapur. págs. 1–460. doi :10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1.S2CID257928563 .{{cite book}}: CS1 maint: location missing publisher (link)
^ J Duan; Y Guan; S Li (2021). "Actor-crítico blando distributivo: aprendizaje de refuerzo fuera de política para abordar errores de estimación de valor". IEEE Transactions on Neural Networks and Learning Systems . 33 (11): 6584–6598. arXiv : 2001.02811 . doi :10.1109/TNNLS.2021.3082568. PMID 34101599. S2CID 211259373.