Optimización de políticas próximas

La optimización de políticas próximas (PPO) es un algoritmo en el campo del aprendizaje por refuerzo que entrena la función de decisión de un agente informático para realizar tareas difíciles. PPO fue desarrollado por John Schulman en 2017, ^[1] y se había convertido en el algoritmo de aprendizaje por refuerzo predeterminado en la empresa estadounidense de inteligencia artificial OpenAI . ^[2] En 2018, PPO había obtenido una amplia variedad de éxitos, como controlar un brazo robótico, vencer a jugadores profesionales en Dota 2 y sobresalir en juegos de Atari. ^[3] Muchos expertos llamaron a PPO el estado del arte porque parece lograr un equilibrio entre desempeño y comprensión. ^{[ cita necesaria ]} En comparación con otros algoritmos, las tres ventajas principales de PPO son la simplicidad, la estabilidad y la eficiencia de la muestra. ^[4]

PPO se clasifica como un método de gradiente de políticas para entrenar la red de políticas de un agente. La red de políticas es la función que utiliza el agente para tomar decisiones. Básicamente, para entrenar la red de políticas adecuada, PPO realiza una pequeña actualización de la política (tamaño del paso), para que el agente pueda alcanzar de manera confiable la solución óptima. Un paso demasiado grande puede orientar la política en la dirección equivocada, dejando así pocas posibilidades de recuperación; un paso demasiado pequeño reduce la eficiencia general. En consecuencia, PPO implementa una función de recorte que impide que la actualización de políticas de un agente sea demasiado grande o demasiado pequeña. ^[4]

Desarrollo

El aprendizaje por refuerzo (RL), al que pertenece PPO, tiene sus raíces en la psicología y la neurociencia. En comparación con otros campos del aprendizaje automático, el aprendizaje por refuerzo imita estrechamente el tipo de aprendizaje que realizan los humanos y otros animales. Muchos de los algoritmos centrales, incluido el PPO, se inspiraron originalmente en sistemas de aprendizaje biológico, como el aprendizaje por prueba y error del psicólogo Edward Thorndike (1913). ^[5]^[6]

En 2015, John Schulman introdujo la Optimización de políticas de región confiable (TRPO) como una versión anterior de PPO. TRPO abordó el problema de inestabilidad encontrado en el algoritmo anterior, red q profunda (DQN), utilizando la restricción de la región de confianza para regular la divergencia de KL entre la política antigua y la nueva. Sin embargo, TRPO es computacionalmente complicado e ineficiente debido a su optimización de segundo orden, lo que lleva a una implementación costosa y difícil para problemas a gran escala. ^[7]^[8]

En 2017, John Schulman resolvió el problema de complejidad de TRPO adoptando la optimización de primer orden en PPO. Schulman y sus equipos diseñaron un mecanismo de recorte que prohíbe que la nueva política se desvíe significativamente de la anterior cuando la relación de probabilidad entre ellas está fuera del rango de recorte. ^[1]^[8] En otras palabras, la PPO modifica la función objetivo de la TRPO con el castigo de actualizaciones de políticas demasiado grandes. Además, PPO elimina las complicadas restricciones de la región de confianza y utiliza la función de recorte en su lugar. Como resultado, PPO mejora el desempeño y la implementación basándose en el marco de TRPO.

Teoría

Esta sección explorará primero los componentes clave del algoritmo central en PPO y luego profundizará en la función objetivo principal en PPO.

Conceptos básicos

Para comenzar el proceso de capacitación del PPO, se coloca al agente en un entorno para realizar acciones basadas en su información actual. En la fase inicial de la formación, el agente puede explorar libremente soluciones y realizar un seguimiento del resultado. Posteriormente, con una cierta cantidad de conjuntos de datos y actualizaciones de políticas, el agente seleccionará una acción a realizar mediante un muestreo aleatorio de la distribución de probabilidad generada por la red de políticas. ^[9] Las acciones que tengan más probabilidades de ser beneficiosas tendrán la mayor probabilidad de ser seleccionadas de la muestra aleatoria. Después de que un agente llega a un escenario diferente conocido como Estado actuando, es recompensado con una recompensa positiva o una recompensa negativa. El objetivo de un agente es maximizar sus recompensas totales en una serie de estados, también denominados episodios. Los científicos refuerzan al agente para que aprenda a realizar las mejores acciones mediante la experiencia, y esta función de decisión se llama Política. ^[10] $P(A|S)$

Leyes de gradiente de políticas: función de ventaja A

Como parte esencial de la PPO, la función de ventaja intenta responder a la pregunta de si una acción específica del agente es mejor que la otra acción posible en un estado determinado o peor que la otra acción. Por definición, la función de ventaja es una estimación del valor relativo de una acción seleccionada. El resultado positivo de la función de ventaja significa que la acción elegida es mejor que el rendimiento promedio, por lo que las posibilidades de esa acción específica aumentarán, y viceversa. ^[8]

Cálculo de la función de ventaja: A = suma descontada (Q) - estimación inicial (V). La primera parte, la suma descontada, es la recompensa total ponderada por completar un episodio actual. Se le dará más peso a una acción específica que genere recompensas fáciles y rápidas. Por otro lado, se dará menos peso a las acciones que requieran un esfuerzo significativo pero que ofrezcan recompensas desproporcionadas. ^[11]^[8] Dado que la función de ventaja se calcula después de completar un episodio, el programa registra el resultado del episodio. Por lo tanto, calcular la ventaja es esencialmente un problema de aprendizaje no supervisado . La segunda parte, la estimación de referencia, es la función de valor que genera la suma descontada esperada de un episodio a partir del estado actual. En el algoritmo PPO, la estimación de referencia será ruidosa (con algunas variaciones ) porque utiliza una red neuronal . Una vez calculadas las dos partes, la función de ventaja se calcula restando la estimación de referencia del rendimiento real (suma descontada). ^[12] A > 0 significa cuánto mejor se basa el rendimiento real de la acción en función del rendimiento esperado de la experiencia; A <0 implica qué tan malo es el rendimiento real en función del rendimiento esperado.

Función de relación

En PPO, la función de relación calcula la probabilidad de tomar medidas a en los estados s de la red de políticas actual dividida por la versión anterior de la política.

En esta función, rt ( θ ) denota la relación de probabilidad entre la política actual y la anterior:

Si rt ( θ )>1, la acción a en el estado s se basa más probablemente en la política actual que en la política anterior.
Si rt ( θ ) está entre 0 y 1, la acción a en el estado s es menos probable que se base en la política actual que en la política anterior.

Esta función de ratio puede estimar fácilmente la divergencia entre las políticas antiguas y actuales. ^[13]^[4]

Función objetivo de la PPO

La función objetivo central de PPO toma el operador de expectativa (denotado como E), lo que significa que esta función se calculará sobre cantidades de trayectorias. El operador de expectativa toma el mínimo de dos términos:

1. R-theta * Función de Ventaja: este es el producto de la función de relación y la función de ventaja que se introdujo en TRPO, también conocida como objetivo de gradiente de política normal. ^[14]

2. Recortado (R-theta) * Función de ventaja: el ratio de política se recorta primero entre 1- épsilon y 1 + épsilon; generalmente, épsilon se define como 0,20. Luego, multiplica la versión recortada por la ventaja.

La intuición fundamental detrás de la PPO es la misma que la de la TRPO: conservadurismo. El recorte se aplica para hacer conservadora la "estimación de ventaja" de la nueva política. El razonamiento detrás del conservadurismo es que si los agentes realizan cambios significativos debido a estimaciones de altas ventajas, la actualización de la política será grande e inestable, y puede "caerse por el precipicio" (pocas posibilidades de recuperación). ^[15] Hay dos aplicaciones comunes de la función de recorte. Cuando una acción bajo una nueva política resulta ser una acción realmente buena según la función de ventaja, la función de recorte limita cuánto crédito se puede otorgar a una nueva política por buenas acciones ponderadas. Por otro lado, cuando una acción bajo la antigua política se considera una mala acción, la función de recorte restringe en qué medida el agente puede reducir la holgura de la nueva política para las malas acciones menos ponderadas. ^[16] En consecuencia, el mecanismo de recorte está diseñado para desalentar el incentivo de moverse más allá del rango definido recortando en ambas direcciones. La ventaja de este método es que se puede optimizar directamente con descenso de gradiente , a diferencia de la estricta restricción de divergencia KL de TRPO, lo que hace que la implementación sea más rápida y limpia.

Después de calcular la función objetivo sustituta recortada, el programa tiene dos razones de probabilidad: una no recortada y otra recortada; luego, al tomar el mínimo de los dos objetivos, el objetivo final se convierte en un límite inferior (límite pesimista) de lo que un agente sabe que es posible. ^[16] En otras palabras, el método mínimo garantiza que el agente esté realizando la actualización más segura posible.

Ventajas

Sencillez

PPO se aproxima a lo que hizo TRPO sin hacer demasiados cálculos. Utiliza optimización de primer orden (función de recorte) para restringir la actualización de políticas, mientras que TRPO usa restricciones de divergencia KL fuera de la función objetivo (optimización de segundo orden). En comparación con el TRPO, el método PPO es relativamente fácil de implementar y requiere menos tiempo de cálculo. Por lo tanto, es más económico y eficiente utilizar PPO en problemas de gran escala. ^[17]

Estabilidad

Mientras que otros algoritmos de aprendizaje por refuerzo requieren un ajuste de hiperparámetros , PPO no necesariamente requiere un ajuste de hiperparámetros (en la mayoría de los casos se puede usar 0,2 para épsilon). ^[18] Además, PPO no requiere técnicas de optimización sofisticadas. Puede practicarse fácilmente con marcos estándar de aprendizaje profundo y generalizarse a una amplia gama de tareas.

Eficiencia de la muestra

La eficiencia de la muestra indica si los algoritmos necesitan más o menos cantidad de datos para entrenar una buena política. Los algoritmos basados en políticas, incluidos PPO y TRPO, generalmente tienen un bajo nivel de eficiencia de muestra. ^[19] Sin embargo, PPO logró la eficiencia de la muestra debido a su uso de objetivos sustitutos. Los objetivos sustitutos permiten al Ministerio Público evitar que la nueva política se aleje demasiado de la antigua; la función de clip regulariza la actualización de la política y reutiliza los datos de entrenamiento. La eficiencia del muestreo es especialmente útil para tareas complicadas y de gran dimensión, donde la recopilación y el cálculo de datos pueden resultar costosos. ^[20]

Ver también

Referencias

^ ab J. Schulman, F. Wolski, P. Dhariwal, A. Radford y O. Klimov, "Algoritmos de optimización de políticas proximales", arXiv.org, https://arxiv.org/abs/1707.06347, arXiv:1707.06347 [ cs.LG].
^ OpenAI, " Optimización de políticas próximas" Disponible en: https://openai.com/research/openai-baselines-ppo (recuperado el 1 de noviembre de 2023).
^ Perspectivas de Arxiv. "Una introducción a los métodos de gradiente de políticas", YouTube , 1 de octubre de 2018 [archivo de vídeo]. Disponible: https://www.youtube.com/watch?v=5P7I-xPq8u8.
^ abc T. Simonini, “Optimización de políticas próximas (PPO)”, Hugging Face: la comunidad de inteligencia artificial que construye el futuro, https://huggingface.co/blog/deep-rl-ppo.
^ R. Sutton y A. Barto, Aprendizaje por refuerzo: introducción, https://beiyulincs.github.io/teach/spring_21/behavior_modeling/reading/rl_reading.pdf (consultado el 6 de noviembre de 2023).
^ C. Mahoney, “Aprendizaje por refuerzo: una revisión de los desarrollos históricos, modernos e históricos... | Hacia la ciencia de datos”, Medium, 30 de marzo de 2022. [En línea]. Disponible: https://towardsdatascience.com/reinforcement-learning-fda8ff535bb6#5554
^ Wang, Y., He, H., Wen, C. y Tan, X. (2019). Optimización de políticas verdaderamente próxima. ArXiv . /abs/1903.07940
^ abcd Schulman, J., Levine, S., Moritz, P., Jordan, MI y Abbeel, P. (2015). Optimización de la política de región de confianza. ArXiv . /abs/1502.05477
^ "Una guía para principiantes sobre el aprendizaje por refuerzo profundo", Pathmind . https://wiki.pathmind.com/deep-reinforcement-learning#reward
^ QT Luu, "Q-learning frente a Q-learning profundo frente a Deep Q-Network", Baeldung sobre informática, https://www.baeldung.com/cs/q-learning-vs-deep-q-learning -vs-deep-q-network (consultado el 1 de noviembre de 2023).
^ OpenAI, “Parte 1: Conceptos clave en RL¶”, Parte 1: Conceptos clave en RL - Documentación Spinning Up, https://spinningup.openai.com/en/latest/spinningup/rl_intro.html (consultado el 4 de noviembre , 2023).
^ Rohitkumar, "PPO (optimización de políticas próximas) explicada con ejemplos de código en Pytorch y tensorflow", PlainSwipe, https://plainswipe.com/ppo-proximal-policy-optimization-explained-with-code-examples-in-pytorch- and-tensorflow/ (consultado el 5 de noviembre de 2023).
^ W. Heeswijk, “Explicación de la optimización de políticas próximas (PPO)”, Medio, https://towardsdatascience.com/proximal-policy-optimization-ppo-explained-abed1952457b (consultado el 4 de noviembre de 2023).
^ Edan Meyer. "Explicación de la optimización de políticas próximas", YouTube , 20 de mayo de 2021 [archivo de vídeo]. Disponible: https://www.youtube.com/watch?v=HrapVFNBN64 (consultado el 4 de noviembre de 2023).
^ CM salvaje. La búsqueda de la felicidad (robótica): cómo TRPO y PPO estabilizan los métodos de gradiente de políticas. 2018. URL: https://towardsdatascience.com/the-pursuit-of-robotic-happiness-how-trpoand-ppo-stabilize-policy-gradient-methods-545784094e3b (visitado el 11/05/2023).
^ ab Zheng, R., Dou, S., Gao, S., Hua, Y., Shen, W., Wang, B., (2023). Secretos de RLHF en modelos de lenguaje grandes Parte I: PPO. ArXiv . /abs/2307.04964
^ J. Nocedal e Y. Nesterov., “Región de confianza natural y optimización de políticas próximas”, TransferLab, https://transferlab.ai/blog/trpo-and-ppo/ (consultado el 5 de noviembre de 2023).
^ J. Hui, “RL - comparación de algoritmos de aprendizaje por refuerzo”, Medio, https://jonathan-hui.medium.com/rl-reinforcement-learning-algorithms-comparison-76df90f180cf (consultado el 4 de noviembre de 2023).
^ Huang, Shengyi y Dossa, "Los 37 detalles de implementación de la optimización de políticas próximas", Los 37 detalles de implementación de la optimización de políticas próximas · The ICLR Blog Track, https://iclr-blog-track.github.io/2022/03 /25/ppo-implementation-details/ (consultado el 5 de noviembre de 2023).
^ XiaoYang-ElegantRL, "ElegantRL: Dominar los algoritmos de PPO: hacia la ciencia de datos", Medium , 23 de noviembre de 2022. [En línea]. Disponible: https://towardsdatascience.com/elegantrl-mastering-the-ppo-algorithm-part-i-9f36bc47b791

enlaces externos

Anuncio de optimización de políticas próximas por parte de OpenAI
repositorio de GitHub