La función de valor de un problema de optimización proporciona el valor alcanzado por la función objetivo en una solución, mientras que sólo depende de los parámetros del problema. [1] [2] En un sistema dinámico controlado , la función de valor representa el resultado óptimo del sistema en el intervalo [t, t 1 ] cuando se inicia en la variable de estado de tiempo t x(t)=x . [3] Si la función objetivo representa algún coste que se debe minimizar, la función de valor puede interpretarse como el coste de finalizar el programa óptimo, y por lo tanto se denomina "función de coste de ejecución". [4] [5] En un contexto económico, donde la función objetivo suele representar la utilidad , la función de valor es conceptualmente equivalente a la función de utilidad indirecta . [6] [7]
En un problema de control óptimo , la función de valor se define como el supremo de la función objetivo tomada sobre el conjunto de controles admisibles. Dado , un problema de control óptimo típico es
sujeto a
con variable de estado inicial . [8] La función objetivo debe maximizarse sobre todos los controles admisibles , donde es una función medible de Lebesgue desde hasta un conjunto arbitrario prescrito en . La función de valor se define entonces como
con , donde es el "valor residual". Si el par óptimo de trayectorias de control y estado es , entonces . La función que proporciona el control óptimo en función del estado actual se denomina política de control de retroalimentación [4] o, simplemente, función de política [9] .
El principio de optimalidad de Bellman establece aproximadamente que cualquier política óptima en el momento , tomando el estado actual como "nueva" condición inicial, debe ser óptima para el problema restante. Si la función de valor resulta ser continuamente diferenciable , [10] esto da lugar a una importante ecuación diferencial parcial conocida como ecuación de Hamilton-Jacobi-Bellman ,
donde el maximando en el lado derecho también puede reescribirse como el hamiltoniano , , como
con el papel de las variables co-estado . [11] Dada esta definición, tenemos además , y después de diferenciar ambos lados de la ecuación HJB con respecto a ,
que luego de reemplazar los términos apropiados recupera la ecuación de costato
donde es la notación de Newton para la derivada con respecto al tiempo. [12]
La función de valor es la única solución de viscosidad para la ecuación de Hamilton-Jacobi-Bellman. [13] En un control óptimo aproximado de circuito cerrado en línea , la función de valor también es una función de Lyapunov que establece la estabilidad asintótica global del sistema de circuito cerrado. [14]
Referencias
- ^ Fleming, Wendell H. ; Rishel, Raymond W. (1975). Control óptimo determinista y estocástico. Nueva York: Springer. pp. 81–83. ISBN 0-387-90155-8.
- ^ Caputo, Michael R. (2005). Fundamentos del análisis económico dinámico: teoría del control óptimo y aplicaciones. Nueva York: Cambridge University Press. pág. 185. ISBN 0-521-60368-4.
- ^ Weber, Thomas A. (2011). Teoría del control óptimo: con aplicaciones en economía . Cambridge: The MIT Press. pág. 82. ISBN 978-0-262-01573-8.
- ^ de Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Programación neurodinámica . Belmont: Athena Scientific. pág. 2. ISBN 1-886529-10-8.
- ^ "EE365: Programación dinámica" (PDF) .
- ^ Mas-Colell, Andreu ; Whinston, Michael D. ; Green, Jerry R. (1995). Teoría microeconómica . Nueva York: Oxford University Press. p. 964. ISBN 0-19-507340-1.
- ^ Corbae, Dean; Stinchcombe, Maxwell B.; Zeman, Juraj (2009). Introducción al análisis matemático para la teoría económica y la econometría. Princeton University Press. pág. 145. ISBN 978-0-691-11867-3.
- ^ Kamien, Morton I .; Schwartz, Nancy L. (1991). Optimización dinámica: cálculo de variaciones y control óptimo en economía y gestión (2.ª ed.). Ámsterdam: Holanda Septentrional. pág. 259. ISBN 0-444-01609-0.
- ^ Ljungqvist, Lars ; Sargent, Thomas J. (2018). Teoría macroeconómica recursiva (Cuarta edición). Cambridge: MIT Press. pág. 106. ISBN 978-0-262-03866-9.
- ^ Benveniste y Scheinkman establecieron condiciones suficientes para la diferenciabilidad de la función de valor, lo que a su vez permite una aplicación del teorema de la envolvente , véase Benveniste, LM; Scheinkman, JA (1979). "Sobre la diferenciabilidad de la función de valor en modelos dinámicos de economía". Econometrica . 47 (3): 727–732. doi :10.2307/1910417. JSTOR 1910417.Véase también Seierstad, Atle (1982). "Propiedades de diferenciabilidad de la función de valor óptimo en la teoría de control". Journal of Economic Dynamics and Control . 4 : 303–310. doi :10.1016/0165-1889(82)90019-7.
- ^ Kirk, Donald E. (1970). Teoría del control óptimo . Englewood Cliffs, Nueva Jersey: Prentice-Hall. pág. 88. ISBN. 0-13-638098-0.
- ^ Zhou, XY (1990). "Principio máximo, programación dinámica y su conexión en el control determinista". Revista de teoría y aplicaciones de la optimización . 65 (2): 363–373. doi :10.1007/BF01102352. S2CID 122333807.
- ^ Teorema 10.1 en Bressan, Alberto (2019). "Soluciones de viscosidad de ecuaciones de Hamilton-Jacobi y problemas de control óptimo" (PDF) . Apuntes de clase .
- ^ Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). "Control óptimo y estabilidad de Lyapunov". Aprendizaje por refuerzo para el control óptimo de la retroalimentación: un enfoque basado en Lyapunov . Berlín: Springer. págs. 26-27. ISBN 978-3-319-78383-3.
Lectura adicional
- Caputo, Michael R. (2005). "Condiciones necesarias y suficientes para problemas isoperimétricos". Fundamentos del análisis económico dinámico: teoría del control óptimo y aplicaciones . Nueva York: Cambridge University Press. pp. 174–210. ISBN 0-521-60368-4.
- Clarke, Frank H.; Loewen, Philip D. (1986). "La función de valor en el control óptimo: sensibilidad, controlabilidad y optimización temporal". Revista SIAM sobre control y optimización . 24 (2): 243–263. doi :10.1137/0324014.
- LaFrance, Jeffrey T.; Barney, L. Dwayne (1991). "El teorema de la envolvente en la optimización dinámica" (PDF) . Revista de dinámica económica y control . 15 (2): 355–385. doi :10.1016/0165-1889(91)90018-V.
- Stengel, Robert F. (1994). "Condiciones para la optimalidad". Control y estimación óptimos . Nueva York: Dover. pp. 201–222. ISBN 0-486-68200-5.