stringtranslate.com

Función de valor

La función de valor de un problema de optimización proporciona el valor alcanzado por la función objetivo en una solución, mientras que sólo depende de los parámetros del problema. [1] [2] En un sistema dinámico controlado , la función de valor representa el resultado óptimo del sistema en el intervalo [t, t 1 ] cuando se inicia en la variable de estado de tiempo t x(t)=x . [3] Si la función objetivo representa algún coste que se debe minimizar, la función de valor puede interpretarse como el coste de finalizar el programa óptimo, y por lo tanto se denomina "función de coste de ejecución". [4] [5] En un contexto económico, donde la función objetivo suele representar la utilidad , la función de valor es conceptualmente equivalente a la función de utilidad indirecta . [6] [7]

En un problema de control óptimo , la función de valor se define como el supremo de la función objetivo tomada sobre el conjunto de controles admisibles. Dado , un problema de control óptimo típico es

sujeto a

con variable de estado inicial . [8] La función objetivo debe maximizarse sobre todos los controles admisibles , donde es una función medible de Lebesgue desde hasta un conjunto arbitrario prescrito en . La función de valor se define entonces como

con , donde es el "valor residual". Si el par óptimo de trayectorias de control y estado es , entonces . La función que proporciona el control óptimo en función del estado actual se denomina política de control de retroalimentación [4] o, simplemente, función de política [9] .

El principio de optimalidad de Bellman establece aproximadamente que cualquier política óptima en el momento , tomando el estado actual como "nueva" condición inicial, debe ser óptima para el problema restante. Si la función de valor resulta ser continuamente diferenciable , [10] esto da lugar a una importante ecuación diferencial parcial conocida como ecuación de Hamilton-Jacobi-Bellman ,

donde el maximando en el lado derecho también puede reescribirse como el hamiltoniano , , como

con el papel de las variables co-estado . [11] Dada esta definición, tenemos además , y después de diferenciar ambos lados de la ecuación HJB con respecto a ,

que luego de reemplazar los términos apropiados recupera la ecuación de costato

donde es la notación de Newton para la derivada con respecto al tiempo. [12]

La función de valor es la única solución de viscosidad para la ecuación de Hamilton-Jacobi-Bellman. [13] En un control óptimo aproximado de circuito cerrado en línea , la función de valor también es una función de Lyapunov que establece la estabilidad asintótica global del sistema de circuito cerrado. [14]

Referencias

  1. ^ Fleming, Wendell H. ; Rishel, Raymond W. (1975). Control óptimo determinista y estocástico. Nueva York: Springer. pp. 81–83. ISBN 0-387-90155-8.
  2. ^ Caputo, Michael R. (2005). Fundamentos del análisis económico dinámico: teoría del control óptimo y aplicaciones. Nueva York: Cambridge University Press. pág. 185. ISBN 0-521-60368-4.
  3. ^ Weber, Thomas A. (2011). Teoría del control óptimo: con aplicaciones en economía . Cambridge: The MIT Press. pág. 82. ISBN 978-0-262-01573-8.
  4. ^ de Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Programación neurodinámica . Belmont: Athena Scientific. pág. 2. ISBN 1-886529-10-8.
  5. ^ "EE365: Programación dinámica" (PDF) .
  6. ^ Mas-Colell, Andreu ; Whinston, Michael D. ; Green, Jerry R. (1995). Teoría microeconómica . Nueva York: Oxford University Press. p. 964. ISBN 0-19-507340-1.
  7. ^ Corbae, Dean; Stinchcombe, Maxwell B.; Zeman, Juraj (2009). Introducción al análisis matemático para la teoría económica y la econometría. Princeton University Press. pág. 145. ISBN 978-0-691-11867-3.
  8. ^ Kamien, Morton I .; Schwartz, Nancy L. (1991). Optimización dinámica: cálculo de variaciones y control óptimo en economía y gestión (2.ª ed.). Ámsterdam: Holanda Septentrional. pág. 259. ISBN 0-444-01609-0.
  9. ^ Ljungqvist, Lars ; Sargent, Thomas J. (2018). Teoría macroeconómica recursiva (Cuarta edición). Cambridge: MIT Press. pág. 106. ISBN 978-0-262-03866-9.
  10. ^ Benveniste y Scheinkman establecieron condiciones suficientes para la diferenciabilidad de la función de valor, lo que a su vez permite una aplicación del teorema de la envolvente , véase Benveniste, LM; Scheinkman, JA (1979). "Sobre la diferenciabilidad de la función de valor en modelos dinámicos de economía". Econometrica . 47 (3): 727–732. doi :10.2307/1910417. JSTOR  1910417.Véase también Seierstad, Atle (1982). "Propiedades de diferenciabilidad de la función de valor óptimo en la teoría de control". Journal of Economic Dynamics and Control . 4 : 303–310. doi :10.1016/0165-1889(82)90019-7.
  11. ^ Kirk, Donald E. (1970). Teoría del control óptimo . Englewood Cliffs, Nueva Jersey: Prentice-Hall. pág. 88. ISBN. 0-13-638098-0.
  12. ^ Zhou, XY (1990). "Principio máximo, programación dinámica y su conexión en el control determinista". Revista de teoría y aplicaciones de la optimización . 65 (2): 363–373. doi :10.1007/BF01102352. S2CID  122333807.
  13. ^ Teorema 10.1 en Bressan, Alberto (2019). "Soluciones de viscosidad de ecuaciones de Hamilton-Jacobi y problemas de control óptimo" (PDF) . Apuntes de clase .
  14. ^ Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). "Control óptimo y estabilidad de Lyapunov". Aprendizaje por refuerzo para el control óptimo de la retroalimentación: un enfoque basado en Lyapunov . Berlín: Springer. págs. 26-27. ISBN 978-3-319-78383-3.

Lectura adicional