Hamiltoniano (teoría del control)

El hamiltoniano es una función que se utiliza para resolver un problema de control óptimo de un sistema dinámico . Puede entenderse como un incremento instantáneo de la expresión lagrangiana del problema que se desea optimizar durante un período de tiempo determinado. ^{[1] Inspirado en el}hamiltoniano de la mecánica clásica (pero distinto de él) , el hamiltoniano de la teoría del control óptimo fue desarrollado por Lev Pontryagin como parte de su principio de máximo . ^[2] Pontryagin demostró que una condición necesaria para resolver el problema de control óptimo es que el control se elija de manera que optimice el hamiltoniano. ^[3]

Planteamiento del problema y definición del hamiltoniano

Consideremos un sistema dinámico de ecuaciones diferenciales de primer orden. ${\estilo de visualización n}$

{\dot {\mathbf {x}}(t)=\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)

donde denota un vector de variables de estado y un vector de variables de control. Una vez que se especifican las condiciones iniciales y los controles , se puede encontrar una solución a las ecuaciones diferenciales, llamada trayectoria . El problema del control óptimo es elegir (de un conjunto de ) de modo que maximice o minimice una determinada función objetivo entre un tiempo inicial y un tiempo terminal (donde puede ser infinito ). Específicamente, el objetivo es optimizar sobre un índice de rendimiento definido en cada punto en el tiempo, $\mathbf {x} (t)=\left[x_{1}(t),x_{2}(t),\ldots ,x_{n}(t)\right]^{\mathsf {T}}$ $\mathbf {u} (t)=\left[u_{1}(t),u_{2}(t),\ldots ,u_{r}(t)\right]^{\mathsf {T}}$ $\mathbf {x} (t_{0})=\mathbf {x} _{0}$ $\mathbf {u} (t)$ $\mathbf {x} (t;\mathbf {x} _{0},t_{0})$ $\mathbf {u} (t)$ ${\mathcal {U}}\subseteq \mathbb {R} ^{r}$ $\mathbf {x} (t)$ $t=t_{0}$ $t=t_{1}$ $t_{1}$ $I(\mathbf {x} (t),\mathbf {u} (t),t)$

\max _{\mathbf {u} (t)}J

, con

J=\int _{t_{0}}^{t_{1}}I[\mathbf {x} (t),\mathbf {u} (t),t]\,\mathrm {d} t

Sujeto a las ecuaciones de movimiento de las variables de estado anteriores. El método de solución implica definir una función auxiliar conocida como hamiltoniano de control.

$H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)\equiv I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)$

que combina la función objetivo y las ecuaciones de estado de forma muy similar a un lagrangiano en un problema de optimización estática, solo que los multiplicadores (denominados variables de estado ) son funciones del tiempo en lugar de constantes. $\mathbf {\lambda } (t)$

El objetivo es encontrar una función de política de control óptima y, con ella, una trayectoria óptima de la variable de estado , que por el principio de máximo de Pontryagin son los argumentos que maximizan el hamiltoniano, $\mathbf {u} ^{\ast }(t)$ $\mathbf {x} ^{\ast }(t)$

H(\mathbf {x} ^{\ast }(t),\mathbf {u} ^{\ast }(t),\mathbf {\lambda } (t),t)\geq H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)

a pesar de

\mathbf {u} (t)\in {\mathcal {U}}

Las condiciones necesarias de primer orden para un máximo están dadas por

{\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {u} }}=0\quad

cual es el principio máximo,

{\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {\lambda } }}={\dot {\mathbf {x} }}(t)\quad

que genera la función de transición de estado ,

\,\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)={\dot {\mathbf {x} }}(t)

{\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {x} }}=-{\dot {\mathbf {\lambda } }}(t)\quad

que genera las ecuaciones de costato

\,{\dot {\mathbf {\lambda } }}(t)=-\left[I_{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)\right]

Juntas, las ecuaciones de estado y de costata describen el sistema dinámico hamiltoniano (de nuevo análogo pero distinto del sistema hamiltoniano en física), cuya solución implica un problema de valor límite de dos puntos , dado que hay condiciones límite que involucran dos puntos diferentes en el tiempo, el tiempo inicial (las ecuaciones diferenciales para las variables de estado) y el tiempo terminal (las ecuaciones diferenciales para las variables de costata; a menos que se especifique una función final, las condiciones límite son o para horizontes de tiempo infinitos). ^[4] $2n$ $n$ $n$ $\mathbf {\lambda } (t_{1})=0$ $\lim _{t_{1}\to \infty }\mathbf {\lambda } (t_{1})=0$

Una condición suficiente para un máximo es la concavidad del hamiltoniano evaluado en la solución, es decir

H_{\mathbf {uu} }(\mathbf {x} ^{\ast }(t),\mathbf {u} ^{\ast }(t),\mathbf {\lambda } (t),t)\leq 0

donde es el control óptimo, y es la trayectoria óptima resultante para la variable de estado. ^[5] Alternativamente, por un resultado debido a Olvi L. Mangasarian , las condiciones necesarias son suficientes si las funciones y son ambas cóncavas en y . ^[6] $\mathbf {u} ^{\ast }(t)$ $\mathbf {x} ^{\ast }(t)$ $I(\mathbf {x} (t),\mathbf {u} (t),t)$ $\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)$ $\mathbf {x} (t)$ $\mathbf {u} (t)$

Derivación del Lagrangiano

Un problema de optimización restringida como el planteado anteriormente generalmente sugiere una expresión lagrangiana, específicamente

L=\int _{t_{0}}^{t_{1}}I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\left[\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)-{\dot {\mathbf {x} }}(t)\right]\,\mathrm {d} t

donde se compara con el multiplicador de Lagrange en un problema de optimización estática pero ahora es, como se señaló anteriormente, una función del tiempo. Para eliminar , el último término del lado derecho se puede reescribir utilizando la integración por partes , de modo que $\mathbf {\lambda } (t)$ ${\dot {\mathbf {x} }}(t)$

-\int _{t_{0}}^{t_{1}}\mathbf {\lambda } ^{\mathsf {T}}(t){\dot {\mathbf {x} }}(t)\,\mathrm {d} t=-\mathbf {\lambda } ^{\mathsf {T}}(t_{1})\mathbf {x} (t_{1})+\mathbf {\lambda } ^{\mathsf {T}}(t_{0})\mathbf {x} (t_{0})+\int _{t_{0}}^{t_{1}}{\dot {\mathbf {\lambda } }}^{\mathsf {T}}(t)\mathbf {x} (t)\,\mathrm {d} t

que puede sustituirse nuevamente en la expresión lagrangiana para dar

L=\int _{t_{0}}^{t_{1}}\left[I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)+{\dot {\mathbf {\lambda } }}^{\mathsf {T}}(t)\mathbf {x} (t)\right]\,\mathrm {d} t-\mathbf {\lambda } ^{\mathsf {T}}(t_{1})\mathbf {x} (t_{1})+\mathbf {\lambda } ^{\mathsf {T}}(t_{0})\mathbf {x} (t_{0})

Para derivar las condiciones de primer orden para un óptimo, suponga que se ha encontrado la solución y que el lagrangiano está maximizado. Entonces, cualquier perturbación en o debe hacer que el valor del lagrangiano disminuya. Específicamente, la derivada total de obedece $\mathbf {x} (t)$ $\mathbf {u} (t)$ $L$

\mathrm {d} L=\int _{t_{0}}^{t_{1}}\left[\left(I_{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)\right)\mathrm {d} \mathbf {u} (t)+\left(I_{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+{\dot {\mathbf {\lambda } }}(t)\right)\mathrm {d} \mathbf {x} (t)\right]\mathrm {d} t-\mathbf {\lambda } ^{\mathsf {T}}(t_{1})\mathrm {d} \mathbf {x} (t_{1})+\mathbf {\lambda } ^{\mathsf {T}}(t_{0})\mathrm {d} \mathbf {x} (t_{0})\leq 0

Para que esta expresión sea igual a cero se requieren las siguientes condiciones de optimalidad:

{\begin{aligned}\underbrace {I_{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)} _{={\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {u} }}}&=0\\\underbrace {I_{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)} _{={\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {x} }}}+{\dot {\mathbf {\lambda } }}(t)&=0\end{aligned}}

Si tanto el valor inicial como el valor terminal son fijos, es decir , no se necesitan condiciones sobre y . Si el valor terminal es libre, como suele ser el caso, la condición adicional es necesaria para la optimalidad. Esta última se denomina condición de transversalidad para un problema de horizonte fijo. ^[7] $\mathbf {x} (t_{0})$ $\mathbf {x} (t_{1})$ $\mathrm {d} \mathbf {x} (t_{0})=\mathrm {d} \mathbf {x} (t_{1})=0$ $\mathbf {\lambda } (t_{0})$ $\mathbf {\lambda } (t_{1})$ $\mathbf {\lambda } (t_{1})=0$

Se puede observar que las condiciones necesarias son idénticas a las enunciadas anteriormente para el hamiltoniano. Por lo tanto, el hamiltoniano puede entenderse como un mecanismo para generar las condiciones necesarias de primer orden. ^[8]

El hamiltoniano en tiempo discreto

Cuando el problema se formula en tiempo discreto, el hamiltoniano se define como:

H(x_{t},u_{t},\lambda _{t+1},t)=\lambda _{t+1}^{\top }f(x_{t},u_{t},t)+I(x_{t},u_{t},t)\,

y las ecuaciones de costato son

\lambda _{t}={\frac {\partial H}{\partial x_{t}}}

(Tenga en cuenta que el hamiltoniano de tiempo discreto en el tiempo involucra la variable coestado en el tiempo ^[9]. Este pequeño detalle es esencial para que cuando diferenciemos con respecto a obtengamos un término que involucra en el lado derecho de las ecuaciones coestado. El uso de una convención incorrecta aquí puede llevar a resultados incorrectos, es decir, una ecuación coestado que no es una ecuación de diferencia hacia atrás). $t$ $t+1.$ $x$ $\lambda _{t+1}$

Comportamiento del hamiltoniano a lo largo del tiempo

Del principio de máximo de Pontryagin se pueden derivar condiciones especiales para el hamiltoniano. ^[10] Cuando el tiempo final es fijo y el hamiltoniano no depende explícitamente del tiempo , entonces: ^[11] $t_{1}$ $\left({\tfrac {\partial H}{\partial t}}=0\right)$

H(x^{*}(t),u^{*}(t),\lambda ^{*}(t))=\mathrm {constant} \,

o si el tiempo terminal está libre, entonces:

H(x^{*}(t),u^{*}(t),\lambda ^{*}(t))=0.\,

Además, si el tiempo terminal tiende a infinito , se aplica una condición de transversalidad en el hamiltoniano. ^[12]

\lim _{t\to \infty }H(t)=0

El hamiltoniano del control comparado con el hamiltoniano de la mecánica

William Rowan Hamilton definió el hamiltoniano para describir la mecánica de un sistema. Es una función de tres variables y está relacionada con el lagrangiano como

{\mathcal {H}}(p,q,t)=\langle p,{\dot {q}}\rangle -L(q,{\dot {q}},t)

donde es el lagrangiano , cuya extremización determina la dinámica ( no el lagrangiano definido anteriormente) y es la variable de estado. El lagrangiano se evalúa con representando la derivada temporal de la evolución del estado y , el llamado " momento conjugado ", se relaciona con él como $L$ $q$ ${\dot {q}}$ $p$

p={\frac {\partial L}{\partial {\dot {q}}}}

Luego, Hamilton formuló sus ecuaciones para describir la dinámica del sistema como

{\frac {d}{dt}}p(t)=-{\frac {\partial }{\partial q}}{\mathcal {H}}

{\frac {d}{dt}}q(t)=~~{\frac {\partial }{\partial p}}{\mathcal {H}}

El hamiltoniano de la teoría de control no describe la dinámica de un sistema sino las condiciones para hacer extrema alguna función escalar del mismo (el lagrangiano) con respecto a una variable de control . Tal como se define normalmente, es una función de 4 variables. $u$

H(q,u,p,t)=\langle p,{\dot {q}}\rangle -L(q,u,t)

donde es la variable de estado y es la variable de control respecto a aquello que estamos extremeciendo. $q$ $u$

Las condiciones asociadas para un máximo son

{\frac {dp}{dt}}=-{\frac {\partial H}{\partial q}}

{\frac {dq}{dt}}=~~{\frac {\partial H}{\partial p}}

{\frac {\partial H}{\partial u}}=0

Esta definición concuerda con la dada en el artículo de Sussmann y Willems ^[13] (ver p. 39, ecuación 14). Sussmann y Willems muestran cómo se puede utilizar el hamiltoniano de control en dinámica, por ejemplo para el problema de la braquistócrona , pero no mencionan el trabajo previo de Carathéodory sobre este enfoque ^{[14] .}

Valor actual y valor presente Hamiltoniano

En economía , la función objetivo en problemas de optimización dinámica a menudo depende directamente del tiempo sólo a través del descuento exponencial , de modo que toma la forma

I(\mathbf {x} (t),\mathbf {u} (t),t)=e^{-\rho t}\nu (\mathbf {x} (t),\mathbf {u} (t))

donde se denomina función de utilidad instantánea o función de felicidad. ^[15] Esto permite una redefinición del hamiltoniano como donde $\nu (\mathbf {x} (t),\mathbf {u} (t))$ $H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)=e^{-\rho t}{\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t))$

{\begin{aligned}{\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t))\equiv &\,e^{\rho t}\left[I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)\right]\\=&\,\nu (\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\mu } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)\end{aligned}}

que se denomina hamiltoniano de valor actual, en contraste con el hamiltoniano de valor actual definido en la primera sección. En particular, las variables de co-estado se redefinen como , lo que conduce a condiciones de primer orden modificadas. $H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)$ $\mathbf {\mu } (t)=e^{\rho t}\mathbf {\lambda } (t)$

{\frac {\partial {\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t))}{\partial \mathbf {u} }}=0

{\frac {\partial {\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t))}{\partial \mathbf {x} }}=-{\dot {\mathbf {\mu } }}(t)+\rho \mathbf {\mu } (t)

que se desprende inmediatamente de la regla del producto . Económicamente, representan precios sombra valorados en la actualidad para los bienes de capital . $\mathbf {\mu } (t)$ $\mathbf {x} (t)$

Ejemplo: modelo de Ramsey-Cass-Koopmans

En economía , el modelo de Ramsey-Cass-Koopmans se utiliza para determinar un comportamiento óptimo de ahorro para una economía. La función objetivo es la función de bienestar social . $J(c)$

J(c)=\int _{0}^{T}e^{-\rho t}u(c(t))dt

que se maximiza mediante la elección de una trayectoria de consumo óptima . La función indica la utilidad que tiene el agente representativo de consumir en un momento dado. El factor representa el descuento . El problema de maximización está sujeto a la siguiente ecuación diferencial para la intensidad del capital , que describe la evolución temporal del capital por trabajador efectivo: $c(t)$ $u(c(t))$ $c$ $e^{-\rho t}$

{\dot {k}}={\frac {\partial k}{\partial t}}=f(k(t))-(n+\delta )k(t)-c(t)

donde es el consumo del periodo t, es el capital del periodo t por trabajador (con ), es la producción del periodo t, es la tasa de crecimiento de la población, es la tasa de depreciación del capital, el agente descuenta la utilidad futura a una tasa , con y . $c(t)$ $k(t)$ $k(0)=k_{0}>0$ $f(k(t))$ $n$ $\delta$ $\rho$ $u'>0$ $u''<0$

Aquí, la variable de estado evoluciona según la ecuación anterior y es la variable de control. El hamiltoniano se convierte en $k(t)$ $c(t)$

H(k,c,\mu ,t)=e^{-\rho t}u(c(t))+\mu (t){\dot {k}}=e^{-\rho t}u(c(t))+\mu (t)[f(k(t))-(n+\delta )k(t)-c(t)]

Las condiciones de optimalidad son

{\frac {\partial H}{\partial c}}=0\Rightarrow e^{-\rho t}u'(c)=\mu (t)

{\frac {\partial H}{\partial k}}=-{\frac {\partial \mu }{\partial t}}=-{\dot {\mu }}\Rightarrow \mu (t)[f'(k)-(n+\delta )]=-{\dot {\mu }}

además de la condición de transversalidad . Si hacemos , entonces la diferenciación logarítmica de la primera condición de optimalidad con respecto a da como resultado $\mu (T)k(T)=0$ $u(c)=\log(c)$ $t$

-\rho -{\frac {\dot {c}}{c(t)}}={\frac {\dot {\mu }}{\mu (t)}}

Insertando esta ecuación en la segunda condición de optimalidad obtenemos

\rho +{\frac {\dot {c}}{c(t)}}=f'(k)-(n+\delta )

que se conoce como la regla de Keynes-Ramsey , que establece una condición para el consumo en cada período que, si se cumple, garantiza la máxima utilidad durante la vida útil.

Referencias

^ Ferguson, Brian S.; Lim, GC (1998). Introducción a los problemas económicos dinámicos . Manchester: Manchester University Press. pp. 166-167. ISBN 0-7190-4996-2.
^ Dixit, Avinash K. (1990). Optimización en la teoría económica. Nueva York: Oxford University Press. pp. 145–161. ISBN 978-0-19-877210-1.
^ Kirk, Donald E. (1970). Teoría del control óptimo: una introducción . Englewood Cliffs: Prentice Hall. pág. 232. ISBN 0-13-638098-0.
^ Gandolfo, Giancarlo (1996). Dinámica económica (tercera edición). Berlín: Springer. pp. 375–376. ISBN 3-540-60988-1.
^ Seierstad, Atle; Sydsæter, Knut (1987). Teoría del control óptimo con aplicaciones económicas . Ámsterdam: Holanda Septentrional. pp. 107–110. ISBN 0-444-87923-4.
^ Mangasarian, OL (1966). "Condiciones suficientes para el control óptimo de sistemas no lineales". Revista SIAM sobre control . 4 (1): 139–152. doi :10.1137/0304013.
^ Léonard, Daniel; Long, Ngo Van (1992). "Restricciones de punto final y condiciones de transversalidad". Teoría del control óptimo y optimización estática en economía . Nueva York: Cambridge University Press. p. 222 [Teorema 7.1.1]. ISBN 0-521-33158-7.
^ Kamien, Morton I.; Schwartz, Nancy L. (1991). Optimización dinámica: cálculo de varianzas y control óptimo en economía y gestión (segunda edición). Ámsterdam: Holanda Septentrional. pp. 126-127. ISBN 0-444-01609-0.
^ Jönsson, U. (2005). "UNA VERSIÓN DISCRETA DE PMP" (PDF) . p. 25. Archivado desde el original (PDF) el 22 de enero de 2023.
^ Naidu, Desineni S. (2003). Sistemas de control óptimos . Boca Raton: CRC Press. pp. 259–260. ISBN 0-8493-0892-5.
^ Torres, Delfim FM (2002). "Una propiedad notable de los extremos de optimización dinámica". Investigación operativa . 22 (2): 253–263. arXiv : math/0212102 . Código Bibliográfico :2002math.....12102T.
^ Michel, Philippe (1982). "Sobre la condición de transversalidad en problemas óptimos de horizonte infinito". Econometrica . 50 (4): 975–985. doi :10.2307/1912772. JSTOR 1912772. S2CID 16503488.
^ Sussmann; Willems (junio de 1997). "300 años de control óptimo" (PDF) . Revista IEEE Control Systems . doi :10.1109/37.588098. Archivado desde el original (PDF) el 30 de julio de 2010.
^ Véase Pesch, HJ; Bulirsch, R. (1994). "El principio del máximo, la ecuación de Bellman y el trabajo de Carathéodory". Journal of Optimization Theory and Applications . 80 (2): 199–225. doi :10.1007/BF02192933. S2CID 121749702.
^ Bævre, Kåre (primavera de 2005). "Econ 4350: Crecimiento e inversión: Nota de conferencia 7" (PDF) . Departamento de Economía, Universidad de Oslo.

Lectura adicional

Léonard, Daniel; Long, Ngo Van (1992). "El principio del máximo". Teoría del control óptimo y optimización estática en economía . Nueva York: Cambridge University Press. pp. 127–168. ISBN 0-521-33158-7.
Takayama, Akira (1985). "Desarrollos de la teoría del control óptimo y sus aplicaciones". Economía matemática (2.ª ed.). Nueva York: Cambridge University Press. pp. 600–719. ISBN 0-521-31498-4.
Wulwick, Nancy (1995). "El formalismo hamiltoniano y la teoría del crecimiento óptimo". En Rima, IH (ed.). Medición, cuantificación y análisis económico . Londres: Routledge. ISBN 978-0-415-08915-9.