Optimización de políticas proximales

La optimización de políticas proximales (PPO) es un algoritmo en el campo del aprendizaje de refuerzo que entrena la función de decisión de un agente informático para realizar tareas difíciles. PPO fue desarrollado por John Schulman en 2017, ^[1] y se había convertido en el algoritmo de aprendizaje de refuerzo predeterminado en la empresa de inteligencia artificial estadounidense OpenAI . ^[2] En 2018, PPO recibió una amplia variedad de éxitos, como controlar un brazo robótico, vencer a jugadores profesionales en Dota 2 y sobresalir en los juegos de Atari. ^[3] Muchos expertos llamaron a PPO el estado del arte porque parece lograr un equilibrio entre el rendimiento y la comprensión. ^{[ cita requerida ]} En comparación con otros algoritmos, las tres principales ventajas de PPO son la simplicidad, la estabilidad y la eficiencia de la muestra. ^[4]

El PPO se clasifica como un método de gradiente de políticas para entrenar la red de políticas de un agente. La red de políticas es la función que el agente utiliza para tomar decisiones. Básicamente, para entrenar la red de políticas correcta, el PPO realiza una pequeña actualización de políticas (tamaño de paso), de modo que el agente pueda alcanzar de manera confiable la solución óptima. Un paso demasiado grande puede dirigir la política en la dirección incorrecta, con lo que habrá pocas posibilidades de recuperación; un paso demasiado pequeño reduce la eficiencia general. En consecuencia, el PPO implementa una función de recorte que limita la actualización de políticas de un agente para que no sea demasiado grande o demasiado pequeña. ^[4]

Desarrollo

El aprendizaje por refuerzo (RL), al que pertenece el PPO, tiene sus raíces en la psicología y la neurociencia. En comparación con otros campos del aprendizaje automático, el RL imita de cerca el tipo de aprendizaje que realizan los humanos y otros animales. Muchos de los algoritmos básicos, incluido el PPO, se inspiraron originalmente en sistemas de aprendizaje biológico, como el aprendizaje por ensayo y error del psicólogo Edward Thorndike (1913). ^[5]^[6]

En 2015, John Schulman introdujo la Optimización de Políticas de Región de Confianza (TRPO, por sus siglas en inglés) como una versión anterior de PPO. TRPO abordó el problema de inestabilidad encontrado en el algoritmo anterior, deep q-network (DQN), al utilizar la restricción de región de confianza para regular la divergencia KL entre la política antigua y la nueva. Sin embargo, TRPO es computacionalmente complicado e ineficiente debido a su optimización de segundo orden, lo que lleva a una implementación costosa y difícil para problemas de gran escala. ^[7]^[8]

En 2017, John Schulman resolvió el problema de complejidad de TRPO al adoptar la optimización de primer orden en PPO. Schulman y sus equipos diseñaron un mecanismo de recorte que prohíbe que la nueva política se desvíe significativamente de la anterior cuando la relación de probabilidad entre ellas está fuera del rango de recorte. ^[1]^[8] En otras palabras, PPO modifica la función objetivo de TRPO con un castigo por actualizaciones de política demasiado grandes. Además, PPO elimina las complicadas restricciones de la región de confianza y utiliza la función de recorte en su lugar. Como resultado, PPO mejora el rendimiento y la implementación en función del marco de TRPO.

Teoría

Esta sección primero explora los componentes clave del algoritmo central en PPO y luego profundiza en la función objetivo principal en PPO.

Conceptos básicos

Para comenzar el proceso de entrenamiento del PPO, el agente se coloca en un entorno para realizar acciones basadas en su entrada actual. En la fase inicial del entrenamiento, el agente puede explorar libremente las soluciones y realizar un seguimiento del resultado. Más tarde, con una cierta cantidad de conjuntos de datos y actualizaciones de políticas, el agente seleccionará una acción a tomar mediante un muestreo aleatorio de la distribución de probabilidad generada por la red de políticas. ^[9] Las acciones que tengan más probabilidades de ser beneficiosas tendrán la mayor probabilidad de ser seleccionadas de la muestra aleatoria. Después de que un agente llega a un escenario diferente conocido como Estado al actuar, es recompensado con una recompensa positiva o una recompensa negativa. El objetivo de un agente es maximizar sus recompensas totales a lo largo de una serie de Estados, también conocidos como episodios. Los científicos refuerzan al agente para que aprenda a realizar las mejores acciones mediante la experiencia, y esta función de decisión se llama Política. ^[10] $P(A|S)$

Leyes de gradiente de políticas: función de ventaja A

Como parte esencial de la PPO, la función de ventaja intenta responder a la pregunta de si una acción específica del agente es mejor que otra acción posible en un estado dado o peor que la otra acción. Por definición, la función de ventaja es una estimación del valor relativo de una acción seleccionada. El resultado positivo de la función de ventaja significa que la acción elegida es mejor que el rendimiento promedio, por lo que las posibilidades de esa acción específica aumentarán, y viceversa. ^[8]

Cálculo de la función de ventaja: A = suma descontada (Q) - estimación de referencia (V). La primera parte, la suma descontada, es la recompensa ponderada total por completar un episodio actual. Se le dará más peso a una acción específica que brinde recompensas fáciles y rápidas. Por otro lado, se le dará menos peso a las acciones que requieren un esfuerzo significativo pero ofrecen recompensas desproporcionadas. ^[11]^[8] Dado que la función de ventaja se calcula después de completar un episodio, el programa registra el resultado del episodio. Por lo tanto, calcular la ventaja es esencialmente un problema de aprendizaje no supervisado . La segunda parte, la estimación de referencia, es la función de valor que genera la suma descontada esperada de un episodio a partir del estado actual. En el algoritmo PPO, la estimación de referencia será ruidosa (con algunas variaciones ) porque utiliza una red neuronal . Con las dos partes calculadas, la función de ventaja se calcula restando la estimación de referencia del rendimiento real (suma descontada). ^[12] A > 0 significa cuánto mejor es el rendimiento real de la acción en función del rendimiento esperado de la experiencia; A < 0 implica qué tan malo es el rendimiento real en función del rendimiento esperado.

Función de proporción

En PPO, la función de relación calcula la probabilidad de tomar la acción a en el estado s en la red de políticas actual dividida por la versión anterior de la política.

En esta función, rt ( θ ) denota la relación de probabilidad entre la política actual y la anterior:

Si rt ( θ )>1, la acción a en el estado s es más probable según la política actual que según la política anterior.
Si rt ( θ ) está entre 0 y 1, la acción a en el estado s es menos probable según la política actual que según la política anterior.

Esta función de relación permite estimar fácilmente la divergencia entre las políticas antiguas y las actuales. ^[13]^[4]

Función objetivo del PPO

La función objetivo central de PPO toma el operador de expectativa (denotado como E), lo que significa que esta función se calculará sobre cantidades de trayectorias. El operador de expectativa toma el mínimo de dos términos:

1. Función de ventaja R-theta*: es el producto de la función de relación y la función de ventaja que se introdujo en TRPO, también conocida como objetivo de gradiente de política normal. ^[14]

2. Función de ventaja recortada (R-theta): primero se recorta la relación de la política entre 1- épsilon y 1 + épsilon; por lo general, épsilon se define como 0,20. Luego, se multiplica la versión recortada por la ventaja.

La intuición fundamental detrás de la PPO es la misma que la de la TRPO: conservadurismo. El recorte se aplica para hacer que la "estimación de ventaja" de la nueva política sea conservadora. El razonamiento detrás del conservadurismo es que si los agentes hacen cambios significativos debido a estimaciones de ventaja altas, la actualización de la política será grande e inestable, y puede "caer por el precipicio" (poca posibilidad de recuperación). ^[15] Hay dos aplicaciones comunes de la función de recorte. Cuando una acción bajo una nueva política resulta ser una acción realmente buena según la función de ventaja, la función de recorte limita cuánto crédito se puede dar a una nueva política por buenas acciones ponderadas al alza. Por otro lado, cuando una acción bajo la antigua política se juzga como una mala acción, la función de recorte restringe cuánto puede el agente recortar el margen de la nueva política para malas acciones ponderadas a la baja. ^[16] En consecuencia, el mecanismo de recorte está diseñado para desalentar el incentivo de moverse más allá del rango definido recortando ambas direcciones. La ventaja de este método es que se puede optimizar directamente con el descenso de gradiente , a diferencia de la estricta restricción de divergencia KL de TRPO, lo que hace que la implementación sea más rápida y limpia.

Después de calcular la función objetivo sustituta recortada, el programa tiene dos razones de probabilidad: una no recortada y otra recortada; luego, al tomar el mínimo de los dos objetivos, el objetivo final se convierte en un límite inferior (límite pesimista) de lo que un agente sabe que es posible. ^[16] En otras palabras, el método mínimo asegura que el agente esté haciendo la actualización más segura posible.

Ventajas

Sencillez

El método PPO se aproxima a lo que hacía el TRPO sin realizar demasiados cálculos. Utiliza la optimización de primer orden (función de recorte) para restringir la actualización de la política, mientras que el TRPO utiliza restricciones de divergencia KL fuera de la función objetivo (optimización de segundo orden). En comparación con el TRPO, el método PPO es relativamente fácil de implementar y requiere menos tiempo de cálculo. Por lo tanto, es más económico y más eficiente utilizar el PPO en problemas de gran escala. ^[17]

Estabilidad

Mientras que otros algoritmos de aprendizaje por refuerzo requieren un ajuste de hiperparámetros , el PPO no necesariamente lo requiere (en la mayoría de los casos, se puede utilizar 0,2 para épsilon). ^[18] Además, el PPO no requiere técnicas de optimización sofisticadas. Se puede practicar fácilmente con marcos de aprendizaje profundo estándar y generalizar a una amplia gama de tareas.

Eficiencia de la muestra

La eficiencia de muestreo indica si los algoritmos necesitan más o menos cantidad de datos para entrenar una buena política. Los algoritmos basados en políticas, incluidos PPO y TRPO, generalmente tienen un bajo nivel de eficiencia de muestreo. ^[19] Sin embargo, PPO logró la eficiencia de muestreo debido a su uso de objetivos sustitutos. Los objetivos sustitutos permiten a PPO evitar que la nueva política se aleje demasiado de la política anterior; la función de recorte regulariza la actualización de la política y reutiliza los datos de entrenamiento. La eficiencia de muestreo es especialmente útil para tareas complicadas y de alta dimensión, donde la recopilación y el cálculo de datos pueden ser costosos. ^[20]

Véase también

Referencias

^ ab J. Schulman, F. Wolski, P. Dhariwal, A. Radford y O. Klimov, “Algoritmos de optimización de políticas proximales”, arXiv.org, https://arxiv.org/abs/1707.06347 , arXiv:1707.06347 [cs.LG].
^ OpenAI, " Optimización de políticas proximales" Disponible en: https://openai.com/research/openai-baselines-ppo (recuperado el 1 de noviembre de 2023).
^ Arxiv Insights. "Introducción a los métodos de gradiente de políticas", YouTube , 1 de octubre de 2018 [Archivo de video]. Disponible en: https://www.youtube.com/watch?v=5P7I-xPq8u8.
^ abc T. Simonini, “Optimización de políticas proximales (PPO)”, Hugging Face: la comunidad de IA que construye el futuro., https://huggingface.co/blog/deep-rl-ppo .
^ R. Sutton; A. Barto (2015). Aprendizaje por refuerzo: una introducción (PDF) . MIT Press.
^ C. Mahoney, “Aprendizaje por refuerzo: una revisión de los desarrollos históricos, modernos e históricos... | Hacia la ciencia de datos”, Medium, 30 de marzo de 2022. [En línea]. Disponible: https://towardsdatascience.com/reinforcement-learning-fda8ff535bb6#5554
^ Wang, Y., He, H., Wen, C. y Tan, X. (2019). Optimización de políticas verdaderamente proximal. ArXiv . /abs/1903.07940
^ abcd Schulman, J., Levine, S., Moritz, P., Jordan, MI y Abbeel, P. (2015). Optimización de políticas de regiones de confianza. ArXiv . /abs/1502.05477
^ “Guía para principiantes sobre aprendizaje de refuerzo profundo”, Pathmind . https://wiki.pathmind.com/deep-reinforcement-learning#reward
^ QT Luu, “Q-learning vs. deep Q-learning vs. Deep Q-Network”, Baeldung on Computer Science, https://www.baeldung.com/cs/q-learning-vs-deep-q-learning-vs-deep-q-network (consultado el 1 de noviembre de 2023).
^ OpenAI, “Parte 1: Conceptos clave en RL¶”, Parte 1: Conceptos clave en RL - Documentación de Spinning Up, https://spinningup.openai.com/en/latest/spinningup/rl_intro.html (consultado el 4 de noviembre de 2023).
^ Rohitkumar, “PPO (optimización de políticas proximales) explicada con ejemplos de código en Pytorch y tensorflow”, PlainSwipe, https://plainswipe.com/ppo-proximal-policy-optimization-explained-with-code-examples-in-pytorch-and-tensorflow/ (consultado el 5 de noviembre de 2023).
^ W. Heeswijk, “Proximal Policy Optimization (PPO) explained”, Medium, https://towardsdatascience.com/proximal-policy-optimization-ppo-explained-abed1952457b (consultado el 4 de noviembre de 2023).
^ Edan Meyer. "Explicación de la optimización de políticas proximales", YouTube , 20 de mayo de 2021 [Archivo de video]. Disponible en: https://www.youtube.com/watch?v=HrapVFNBN64 (consultado el 4 de noviembre de 2023).
^ CM Wild (9 de julio de 2018). "La búsqueda de la felicidad (robótica): cómo TRPO y PPO estabilizan los métodos de gradiente de políticas". towarddatascience.com .
^ ab Zheng, R., Dou, S., Gao, S., Hua, Y., Shen, W., Wang, B., (2023). Secretos de RLHF en modelos de lenguaje grandes, parte I: PPO. ArXiv . /abs/2307.04964
^ J. Nocedal e Y. Nesterov., “Optimización de políticas naturales, de regiones de confianza y proximales”, TransferLab, https://transferlab.ai/blog/trpo-and-ppo/ (consultado el 5 de noviembre de 2023).
^ J. Hui, “RL - comparación de algoritmos de aprendizaje de refuerzo”, Medium, https://jonathan-hui.medium.com/rl-reinforcement-learning-algorithms-comparison-76df90f180cf (consultado el 4 de noviembre de 2023).
^ Huang, Shengyi y Dossa, “Los 37 detalles de implementación de la optimización de políticas proximales”, The 37 Implementation Details of Proximal Policy Optimization · The ICLR Blog Track, https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/ (consultado el 5 de noviembre de 2023).
^ XiaoYang-ElegantRL, “ElegantRL: Mastering PPO Algorithms - toward Data Science”, Medium , 23 de noviembre de 2022. [En línea]. Disponible: https://towardsdatascience.com/elegantrl-mastering-the-ppo-algorithm-part-i-9f36bc47b791

Enlaces externos

Anuncio de optimización de políticas proximales por parte de OpenAI
Repositorio de GitHub