stringtranslate.com

Ecuación de Hamilton-Jacobi-Bellman

La ecuación de Hamilton-Jacobi-Bellman ( HJB ) es una ecuación diferencial parcial no lineal que proporciona las condiciones necesarias y suficientes para la optimalidad de un control con respecto a una función de pérdida . [1] Su solución es la función de valor del problema de control óptimo que, una vez conocida, puede utilizarse para obtener el control óptimo tomando el maximizador (o minimizador) del hamiltoniano involucrado en la ecuación HJB. [2] [3]

La ecuación es el resultado de la teoría de programación dinámica que fue iniciada en la década de 1950 por Richard Bellman y sus colaboradores. [4] [5] [6] La conexión con la ecuación de Hamilton-Jacobi de la física clásica fue establecida por primera vez por Rudolf Kálmán . [7] En problemas de tiempo discreto , la ecuación de diferencia análoga generalmente se conoce como ecuación de Bellman .

Si bien los problemas variacionales clásicos , como el problema de la braquistócrona , se pueden resolver utilizando la ecuación de Hamilton-Jacobi-Bellman, [8] el método se puede aplicar a un espectro más amplio de problemas. Además, se puede generalizar a sistemas estocásticos , en cuyo caso la ecuación HJB es una ecuación diferencial parcial elíptica de segundo orden . [9] Sin embargo, un inconveniente importante es que la ecuación HJB admite soluciones clásicas solo para una función de valor suficientemente suave , lo que no está garantizado en la mayoría de las situaciones. En cambio, se requiere la noción de una solución de viscosidad , en la que las derivadas convencionales se reemplazan por subderivadas (de valor fijo) . [10]

Problemas de control óptimo

Consideremos el siguiente problema de control óptimo determinista sobre el período de tiempo :

donde es la función de tasa de costo escalar y es una función que da el valor del legado en el estado final, es el vector de estado del sistema, se supone dado, y para es el vector de control que estamos tratando de encontrar. Por lo tanto, es la función de valor .

El sistema también debe estar sujeto a

donde da el vector que determina la evolución física del vector de estado a lo largo del tiempo.

La ecuación diferencial parcial

Para este sistema simple, la ecuación diferencial parcial de Hamilton-Jacobi-Bellman es

sujeto a la condición terminal

Como antes, la función escalar desconocida en la ecuación diferencial parcial anterior es la función de valor de Bellman , que representa el costo incurrido al comenzar en el estado en el tiempo y controlar el sistema de manera óptima desde entonces hasta el tiempo .

Derivación de la ecuación

Intuitivamente, la ecuación HJB se puede derivar de la siguiente manera. Si es la función óptima de costo de operación (también llamada "función de valor"), entonces, por el principio de optimalidad de Richard Bellman , al pasar del tiempo t a t  +  dt , tenemos

Nótese que la expansión de Taylor del primer término en el lado derecho es

donde denota los términos en la expansión de Taylor de orden superior a uno en notación o minúscula . Luego, si restamos de ambos lados, dividimos por dt y tomamos el límite cuando dt se acerca a cero, obtenemos la ecuación HJB definida anteriormente.

Resolviendo la ecuación

La ecuación HJB generalmente se resuelve hacia atrás en el tiempo , comenzando desde y terminando en . [11]

Cuando se resuelve sobre todo el espacio de estados y es continuamente diferenciable, la ecuación HJB es una condición necesaria y suficiente para un óptimo cuando el estado terminal no tiene restricciones. [12] Si podemos resolver para entonces podemos encontrar a partir de ella un control que logre el costo mínimo.

En general, la ecuación HJB no tiene una solución clásica (suave). Se han desarrollado varios conceptos de soluciones generalizadas para cubrir tales situaciones, incluyendo la solución de viscosidad ( Pierre-Louis Lions y Michael Crandall ), [13] la solución minimax (Andrei Izmailovich Subbotin  [ru] ) y otros.

La programación dinámica aproximada ha sido introducida por DP Bertsekas y JN Tsitsiklis con el uso de redes neuronales artificiales ( perceptrones multicapa ) para aproximar la función Bellman en general. [14] Esta es una estrategia de mitigación eficaz para reducir el impacto de la dimensionalidad al reemplazar la memorización del mapeo completo de la función para todo el dominio espacial con la memorización de los parámetros únicos de la red neuronal. En particular, para sistemas de tiempo continuo, se introdujo un enfoque de programación dinámica aproximada que combina iteraciones de políticas con redes neuronales. [15] En tiempo discreto, se introdujo un enfoque para resolver la ecuación HJB combinando iteraciones de valor y redes neuronales. [16]

Como alternativa, se ha demostrado que la optimización por suma de cuadrados puede producir una solución polinómica aproximada a la ecuación de Hamilton-Jacobi-Bellman arbitrariamente bien con respecto a la norma. [17]

Extensión a problemas estocásticos

La idea de resolver un problema de control aplicando el principio de optimalidad de Bellman y luego calculando hacia atrás en el tiempo una estrategia de optimización se puede generalizar a los problemas de control estocástico. Consideremos los ejemplos anteriores.

Ahora, con el proceso estocástico para optimizar y dirigir, primero utilizando Bellman y luego ampliando con la regla de Itô , se obtiene la ecuación estocástica HJB.

donde representa el operador de diferenciación estocástica , y sujeto a la condición terminal

Obsérvese que la aleatoriedad ha desaparecido. En este caso, una solución de este último no resuelve necesariamente el problema primario, es solo un candidato y se requiere un argumento de verificación adicional. Esta técnica se utiliza ampliamente en matemáticas financieras para determinar estrategias de inversión óptimas en el mercado (véase, por ejemplo, el problema de la cartera de Merton ).

Solicitud de control LQG

Como ejemplo, podemos considerar un sistema con dinámica estocástica lineal y costo cuadrático. Si la dinámica del sistema está dada por

y el costo se acumula a una tasa , la ecuación HJB está dada por

con acción óptima dada por

Suponiendo una forma cuadrática para la función de valor, obtenemos la ecuación de Riccati habitual para el hessiano de la función de valor, como es habitual para el control lineal-cuadrático-gaussiano .

Véase también

Referencias

  1. ^ Kirk, Donald E. (1970). Teoría del control óptimo: una introducción. Englewood Cliffs, NJ: Prentice-Hall. pp. 86–90. ISBN 0-13-638098-0.
  2. ^ Yong, Jiongmin; Zhou, Xun Yu (1999). "Programación dinámica y ecuaciones HJB". Controles estocásticos: sistemas hamiltonianos y ecuaciones HJB . Springer. pp. 157–215 [p. 163]. ISBN 0-387-98723-1.
  3. ^ Naidu, Desineni S. (2003). "La ecuación de Hamilton-Jacobi-Bellman". Sistemas de control óptimos . Boca Raton: CRC Press. pp. 277–283 [p. 280]. ISBN 0-8493-0892-5.
  4. ^ Bellman, RE (1954). "Programación dinámica y un nuevo formalismo en el cálculo de variaciones". Proc. Natl. Sci. 40 (4): 231–235. Bibcode :1954PNAS...40..231B. doi : 10.1073/pnas.40.4.231 . PMC 527981 . PMID  16589462.  
  5. ^ Bellman, RE (1957). Programación dinámica . Princeton, Nueva Jersey: Princeton University Press.
  6. ^ Bellman, R.; Dreyfus, S. (1959). "Una aplicación de la programación dinámica a la determinación de trayectorias óptimas de satélites". J. Br. Interplanet. Soc . 17 : 78–83.
  7. ^ Kálmán, Rudolf E. (1963). "La teoría del control óptimo y el cálculo de variaciones". En Bellman, Richard (ed.). Técnicas de optimización matemática . Berkeley: University of California Press. págs. 309–331. OCLC  1033974.
  8. ^ Kemajou-Brown, Isabelle (2016). "Breve historia de la teoría del control óptimo y algunos desarrollos recientes". En Budzban, Gregory; Hughes, Harry Randolph; Schurz, Henri (eds.). Probabilidad en estructuras algebraicas y geométricas . Matemáticas contemporáneas. Vol. 668. págs. 119–130. doi :10.1090/conm/668/13400. ISBN 9781470419455.
  9. ^ Chang, Fwu-Ranq (2004). Optimización estocástica en tiempo continuo. Cambridge, Reino Unido: Cambridge University Press. pp. 113–168. ISBN 0-521-83406-6.
  10. ^ Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Control óptimo y soluciones de viscosidad de las ecuaciones de Hamilton-Jacobi-Bellman . Boston: Birkhäuser. ISBN 0-8176-3640-4.
  11. ^ Lewis, Frank L.; Vrabie, Draguna; Syrmos, Vassilis L. (2012). Control óptimo (3ª ed.). Wiley. pag. 278.ISBN 978-0-470-63349-6.
  12. ^ Bertsekas, Dimitri P. (2005). Programación dinámica y control óptimo . Athena Scientific.
  13. ^ Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Control óptimo y soluciones de viscosidad de las ecuaciones de Hamilton-Jacobi-Bellman . Boston: Birkhäuser. ISBN 0-8176-3640-4.
  14. ^ Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Programación neurodinámica . Athena Scientific. ISBN 978-1-886529-10-6.
  15. ^ Abu-Khalaf, Murad; Lewis, Frank L. (2005). "Leyes de control casi óptimas para sistemas no lineales con actuadores saturados utilizando un enfoque de red neuronal HJB". Automatica . 41 (5): 779–791. doi :10.1016/j.automatica.2004.11.034. S2CID  14757582.
  16. ^ Al-Tamimi, Asma; Lewis, Frank L.; Abu-Khalaf, Murad (2008). "Solución HJB no lineal en tiempo discreto utilizando programación dinámica aproximada: prueba de convergencia". IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics . 38 (4): 943–949. doi :10.1109/TSMCB.2008.926614. PMID  18632382. S2CID  14202785.
  17. ^ Jones, Morgan; Peet, Matthew (2020). "Aproximación polinómica de funciones de valor y diseño de controladores no lineales con límites de rendimiento". arXiv : 2010.06828 [math.OC].

Lectura adicional