stringtranslate.com

Ecuación de Hamilton-Jacobi-Bellman

La ecuación de Hamilton-Jacobi-Bellman ( HJB ) es una ecuación diferencial parcial no lineal que proporciona las condiciones necesarias y suficientes para la optimización de un control con respecto a una función de pérdida . [1] Su solución es la función de valor del problema de control óptimo que, una vez conocida, puede usarse para obtener el control óptimo tomando el maximizador (o minimizador) del hamiltoniano involucrado en la ecuación HJB. [2] [3]

La ecuación es el resultado de la teoría de la programación dinámica , iniciada en la década de 1950 por Richard Bellman y sus compañeros de trabajo. [4] [5] [6] La conexión con la ecuación de Hamilton-Jacobi de la física clásica fue establecida por primera vez por Rudolf Kálmán . [7] En problemas de tiempo discreto , la ecuación en diferencias análoga generalmente se conoce como ecuación de Bellman .

Si bien los problemas variacionales clásicos , como el problema de la braquistocrona , pueden resolverse utilizando la ecuación de Hamilton-Jacobi-Bellman, [8] el método puede aplicarse a un espectro más amplio de problemas. Además, se puede generalizar a sistemas estocásticos , en cuyo caso la ecuación HJB es una ecuación diferencial parcial elíptica de segundo orden . [9] Sin embargo, un inconveniente importante es que la ecuación HJB admite soluciones clásicas sólo para una función de valor suficientemente suave , lo que no está garantizado en la mayoría de las situaciones. En cambio, se requiere la noción de una solución de viscosidad , en la que los derivados convencionales se reemplazan por subderivados (valorados por conjuntos) . [10]

Problemas de control óptimo

Considere el siguiente problema de control óptimo determinista durante el período de tiempo :

donde es la función de tasa de costo escalar y es una función que da el valor del legado en el estado final, es el vector de estado del sistema, se supone dado, y for es el vector de control que estamos tratando de encontrar. Por tanto, es la función de valor .

El sistema también debe estar sujeto a

donde da el vector que determina la evolución física del vector de estado a lo largo del tiempo.

La ecuación diferencial parcial

Para este sistema simple, la ecuación diferencial parcial de Hamilton-Jacobi-Bellman es

sujeto a la condición terminal

Como antes, la función escalar desconocida en la ecuación diferencial parcial anterior es la función de valor de Bellman , que representa el costo incurrido desde el inicio en el estado en el momento y el control óptimo del sistema desde ese momento hasta el momento .

Derivando la ecuación

Intuitivamente, la ecuación HJB se puede derivar de la siguiente manera. Si es la función de costo restante óptima (también llamada 'función de valor'), entonces, según el principio de optimización de Richard Bellman , pasando del tiempo t al t  +  dt , tenemos

Tenga en cuenta que la expansión de Taylor del primer término del lado derecho es

donde denota los términos en la expansión de Taylor de orden superior a uno en notación pequeña o . Luego, si restamos de ambos lados, dividimos por dt y tomamos el límite cuando dt tiende a cero, obtenemos la ecuación HJB definida anteriormente.

Resolviendo la ecuación

La ecuación HJB generalmente se resuelve hacia atrás en el tiempo , comenzando desde y terminando en . [11]

Cuando se resuelve en todo el espacio de estados y es continuamente diferenciable, la ecuación HJB es una condición necesaria y suficiente para un óptimo cuando el estado terminal no está restringido. [12] Si podemos resolverlo , podemos encontrar a partir de él un control que logre el costo mínimo.

En el caso general, la ecuación HJB no tiene una solución clásica (suave). Se han desarrollado varias nociones de soluciones generalizadas para cubrir tales situaciones, incluida la solución de viscosidad ( Pierre-Louis Lions y Michael Crandall ), [13] solución minimax (Andrei Izmailovich Subbotin  [ru] ) y otras.

DP Bertsekas y JN Tsitsiklis introdujeron la programación dinámica aproximada mediante el uso de redes neuronales artificiales ( perceptrones multicapa ) para aproximar la función de Bellman en general. [14] Esta es una estrategia de mitigación eficaz para reducir el impacto de la dimensionalidad al reemplazar la memorización del mapeo de funciones completo para todo el dominio espacial con la memorización de los únicos parámetros de la red neuronal. En particular, para sistemas de tiempo continuo, se introdujo un enfoque de programación dinámica aproximada que combina ambas iteraciones de políticas con redes neuronales. [15] En tiempo discreto, se introdujo un enfoque para resolver la ecuación HJB combinando iteraciones de valores y redes neuronales. [dieciséis]

Alternativamente, se ha demostrado que la optimización de la suma de cuadrados puede producir una solución polinómica aproximada a la ecuación de Hamilton-Jacobi-Bellman arbitrariamente bien con respecto a la norma. [17]

Extensión a problemas estocásticos.

La idea de resolver un problema de control aplicando el principio de optimización de Bellman y luego elaborando hacia atrás en el tiempo una estrategia de optimización puede generalizarse a problemas de control estocástico. Considere similar al anterior

ahora con el proceso estocástico para optimizar y la dirección. Usando primero Bellman y luego expandiendo con la regla de Itô , se encuentra la ecuación estocástica HJB

donde representa el operador de diferenciación estocástica , y sujeto a la condición terminal

Tenga en cuenta que la aleatoriedad ha desaparecido. En este caso, una solución de este último no necesariamente resuelve el problema primario, es sólo un candidato y se requiere un argumento de verificación adicional. Esta técnica es muy utilizada en Matemática Financiera para determinar estrategias de inversión óptimas en el mercado (ver por ejemplo el problema de la cartera de Merton ).

Aplicación al control LQG

Como ejemplo, podemos considerar un sistema con dinámica estocástica lineal y costo cuadrático. Si la dinámica del sistema está dada por

y el costo se acumula a la tasa , la ecuación HJB viene dada por

con acción óptima dada por

Suponiendo una forma cuadrática para la función de valor, obtenemos la ecuación de Riccati habitual para el hessiano de la función de valor, como es habitual en el control lineal-cuadrático-gaussiano .

Ver también

Referencias

  1. ^ Kirk, Donald E. (1970). Teoría del control óptimo: una introducción. Englewood Cliffs, Nueva Jersey: Prentice-Hall. págs. 86–90. ISBN 0-13-638098-0.
  2. ^ Yong, Jiongmin; Zhou, Xun Yu (1999). "Programación dinámica y ecuaciones HJB". Controles estocásticos: sistemas hamiltonianos y ecuaciones HJB . Saltador. págs. 157–215 [pág. 163]. ISBN 0-387-98723-1.
  3. ^ Naidu, Desineni S. (2003). "La ecuación de Hamilton-Jacobi-Bellman". Sistemas de Control Óptimo . Boca Ratón: CRC Press. págs. 277–283 [pág. 280]. ISBN 0-8493-0892-5.
  4. ^ Bellman, RE (1954). "Programación dinámica y un nuevo formalismo en el cálculo de variaciones". Proc. Nacional. Acad. Ciencia. 40 (4): 231–235. Código bibliográfico : 1954PNAS...40..231B. doi : 10.1073/pnas.40.4.231 . PMC 527981 . PMID  16589462.  
  5. ^ Bellman, RE (1957). Programación dinámica . Princeton, Nueva Jersey: Princeton University Press.
  6. ^ Bellman, R.; Dreyfus, S. (1959). "Una aplicación de programación dinámica a la determinación de trayectorias óptimas de satélites". J. Br. Interplaneta. Soc . 17 : 78–83.
  7. ^ Kálmán, Rudolf E. (1963). "La Teoría del Control Óptimo y el Cálculo de Variaciones". En Bellman, Richard (ed.). Técnicas de Optimización Matemática . Berkeley: Prensa de la Universidad de California. págs. 309–331. OCLC  1033974.
  8. ^ Kemajou-Brown, Isabelle (2016). "Breve historia de la teoría del control óptimo y algunos desarrollos recientes". En Budzban, Gregorio; Hughes, Harry Randolph; Schurz, Henri (eds.). Probabilidad en estructuras algebraicas y geométricas . Matemáticas Contemporáneas. vol. 668, págs. 119-130. doi :10.1090/conm/668/13400. ISBN 9781470419455.
  9. ^ Chang, Fwu-Ranq (2004). Optimización Estocástica en Tiempo Continuo. Cambridge, Reino Unido: Cambridge University Press. págs. 113-168. ISBN 0-521-83406-6.
  10. ^ Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Soluciones óptimas de control y viscosidad de las ecuaciones de Hamilton-Jacobi-Bellman . Boston: Birkhäuser. ISBN 0-8176-3640-4.
  11. ^ Lewis, Frank L.; Vrabie, Draguna; Syrmos, Vassilis L. (2012). Control óptimo (3ª ed.). Wiley. pag. 278.ISBN 978-0-470-63349-6.
  12. ^ Bertsekas, Dimitri P. (2005). Programación Dinámica y Control Óptimo . Atenas científica.
  13. ^ Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Soluciones óptimas de control y viscosidad de las ecuaciones de Hamilton-Jacobi-Bellman . Boston: Birkhäuser. ISBN 0-8176-3640-4.
  14. ^ Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Programación neurodinámica . Atenas científica. ISBN 978-1-886529-10-6.
  15. ^ Abu-Khalaf, Murad; Lewis, Frank L. (2005). "Leyes de control casi óptimas para sistemas no lineales con actuadores saturados utilizando un enfoque de red neuronal HJB". Automática . 41 (5): 779–791. doi :10.1016/j.automatica.2004.11.034. S2CID  14757582.
  16. ^ Al-Tamimi, Asma; Lewis, Frank L.; Abu-Khalaf, Murad (2008). "Solución HJB no lineal de tiempo discreto mediante programación dinámica aproximada: prueba de convergencia". Transacciones IEEE sobre sistemas, hombre y cibernética - Parte B: Cibernética . 38 (4): 943–949. doi :10.1109/TSMCB.2008.926614. PMID  18632382. S2CID  14202785.
  17. ^ Jones, Morgan; Peet, Mateo (2020). "Aproximación polinómica de funciones de valor y diseño de controladores no lineales con límites de rendimiento". arXiv : 2010.06828 .

Otras lecturas