Hamiltoniano (teoría del control)

El hamiltoniano es una función utilizada para resolver un problema de control óptimo para un sistema dinámico . Puede entenderse como un incremento instantáneo de la expresión lagrangiana del problema que se desea optimizar durante un período de tiempo determinado. ^{[1] Inspirado en el}hamiltoniano de la mecánica clásica , pero distinto de él , Lev Pontryagin desarrolló el hamiltoniano de la teoría del control óptimo como parte de su principio de máxima . ^[2] Pontryagin demostró que una condición necesaria para resolver el problema de control óptimo es que el control debe elegirse de manera que optimice el hamiltoniano. ^[3]

Planteamiento del problema y definición del hamiltoniano

Considere un sistema dinámico de ecuaciones diferenciales de primer orden. $n$

{\dot {\mathbf {x} }}(t)=\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)

donde denota un vector de variables de estado y un vector de variables de control. Una vez que se especifican las condiciones y los controles iniciales , se puede encontrar una solución a las ecuaciones diferenciales, llamada trayectoria . El problema del control óptimo consiste en elegir (entre algún conjunto ) de modo que se maximice o minimice una determinada función objetivo entre un tiempo inicial y un tiempo terminal (donde puede ser infinito ). En concreto, el objetivo es optimizar sobre un índice de rendimiento definido en cada momento, $\mathbf {x} (t)=\left[x_{1}(t),x_{2}(t),\ldots ,x_{n}(t)\right]^{\mathsf {T}}$ $\mathbf {u} (t)=\left[u_{1}(t),u_{2}(t),\ldots ,u_{r}(t)\right]^{\mathsf {T}}$ $\mathbf {x} (t_{0})=\mathbf {x} _{0}$ $\mathbf {u} (t)$ $\mathbf {x} (t;\mathbf {x} _{0},t_{0})$ $\mathbf {u} (t)$ ${\mathcal {U}}\subseteq \mathbb {R} ^{r}$ $\mathbf {x} (t)$ $t=t_{0}$ $t=t_{1}$ $t_{1}$ $I(\mathbf {x} (t),\mathbf {u} (t),t)$

\max _{\mathbf {u} (t)}J

, con

J=\int _{t_{0}}^{t_{1}}I[\mathbf {x} (t),\mathbf {u} (t),t]\,\mathrm {d} t

sujeto a las ecuaciones de movimiento de las variables de estado anteriores. El método de solución implica definir una función auxiliar conocida como hamiltoniano de control.

$H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)\equiv I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)$

que combina la función objetivo y las ecuaciones de estado de manera muy similar a un lagrangiano en un problema de optimización estática, solo que los multiplicadores , denominados variables de costo , son funciones del tiempo en lugar de constantes. $\mathbf {\lambda } (t)$

El objetivo es encontrar una función política de control óptima y, con ella, una trayectoria óptima de la variable de estado , que según el principio de máximo de Pontryagin son los argumentos que maximizan el hamiltoniano, $\mathbf {u} ^{\ast }(t)$ $\mathbf {x} ^{\ast }(t)$

H(\mathbf {x} ^{\ast }(t),\mathbf {u} ^{\ast }(t),\mathbf {\lambda } (t),t)\geq H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)

para todos

\mathbf {u} (t)\in {\mathcal {U}}

Las condiciones necesarias de primer orden para un máximo están dadas por

{\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {u} }}=0\quad

que es el principio máximo,

{\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {\lambda } }}={\dot {\mathbf {x} }}(t)\quad

que genera la función de transición de estado ,

\,\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)={\dot {\mathbf {x} }}(t)

{\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {x} }}=-{\dot {\mathbf {\lambda } }}(t)\quad

que genera las ecuaciones de costate

\,{\dot {\mathbf {\lambda } }}(t)=-\left[I_{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)\right]

Juntas, las ecuaciones de estado y de coste describen el sistema dinámico hamiltoniano (de nuevo análogo pero distinto del sistema hamiltoniano en física), cuya solución implica un problema de valor límite de dos puntos , dado que existen condiciones de frontera que involucran dos puntos diferentes en tiempo, el tiempo inicial (las ecuaciones diferenciales para las variables de estado) y el tiempo terminal (las ecuaciones diferenciales para las variables de estado; a menos que se especifique una función final, las condiciones de contorno son , o para horizontes de tiempo infinitos). ^[4] $2n$ $n$ $n$ $\mathbf {\lambda } (t_{1})=0$ $\lim _{t_{1}\to \infty }\mathbf {\lambda } (t_{1})=0$

Una condición suficiente para un máximo es la concavidad del hamiltoniano evaluada en la solución, es decir

H_{\mathbf {uu} }(\mathbf {x} ^{\ast }(t),\mathbf {u} ^{\ast }(t),\mathbf {\lambda } (t),t)\leq 0

donde es el control óptimo y la trayectoria óptima resultante para la variable de estado. ^[5] Alternativamente, por un resultado debido a Olvi L. Mangasarian , las condiciones necesarias son suficientes si las funciones y son cóncavas en y . ^[6] $\mathbf {u} ^{\ast }(t)$ $\mathbf {x} ^{\ast }(t)$ $I(\mathbf {x} (t),\mathbf {u} (t),t)$ $\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)$ $\mathbf {x} (t)$ $\mathbf {u} (t)$

Derivación del lagrangiano

Un problema de optimización restringida como el mencionado anteriormente generalmente sugiere una expresión lagrangiana, específicamente

L=\int _{t_{0}}^{t_{1}}I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\left[\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)-{\dot {\mathbf {x} }}(t)\right]\,\mathrm {d} t

donde se compara con el multiplicador de Lagrange en un problema de optimización estática pero ahora, como se señaló anteriormente, es una función del tiempo. Para eliminar , el último término del lado derecho se puede reescribir usando integración por partes , de modo que $\mathbf {\lambda } (t)$ ${\dot {\mathbf {x} }}(t)$

-\int _{t_{0}}^{t_{1}}\mathbf {\lambda } ^{\mathsf {T}}(t){\dot {\mathbf {x} }}(t)\,\mathrm {d} t=-\mathbf {\lambda } ^{\mathsf {T}}(t_{1})\mathbf {x} (t_{1})+\mathbf {\lambda } ^{\mathsf {T}}(t_{0})\mathbf {x} (t_{0})+\int _{t_{0}}^{t_{1}}{\dot {\mathbf {\lambda } }}^{\mathsf {T}}(t)\mathbf {x} (t)\,\mathrm {d} t

que puede sustituirse nuevamente en la expresión lagrangiana para dar

L=\int _{t_{0}}^{t_{1}}\left[I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)+{\dot {\mathbf {\lambda } }}^{\mathsf {T}}(t)\mathbf {x} (t)\right]\,\mathrm {d} t-\mathbf {\lambda } ^{\mathsf {T}}(t_{1})\mathbf {x} (t_{1})+\mathbf {\lambda } ^{\mathsf {T}}(t_{0})\mathbf {x} (t_{0})

Para derivar las condiciones de primer orden para un óptimo, supongamos que se ha encontrado la solución y que el lagrangiano está maximizado. Entonces, cualquier perturbación debe causar que el valor del lagrangiano disminuya. Específicamente, la derivada total de obedece $\mathbf {x} (t)$ $\mathbf {u} (t)$ $L$

\mathrm {d} L=\int _{t_{0}}^{t_{1}}\left[\left(I_{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)\right)\mathrm {d} \mathbf {u} (t)+\left(I_{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+{\dot {\mathbf {\lambda } }}(t)\right)\mathrm {d} \mathbf {x} (t)\right]\mathrm {d} t-\mathbf {\lambda } ^{\mathsf {T}}(t_{1})\mathrm {d} \mathbf {x} (t_{1})+\mathbf {\lambda } ^{\mathsf {T}}(t_{0})\mathrm {d} \mathbf {x} (t_{0})\leq 0

Para que esta expresión sea igual a cero se necesitan las siguientes condiciones de optimización:

{\begin{aligned}\underbrace {I_{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)} _{={\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {u} }}}&=0\\\underbrace {I_{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)} _{={\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {x} }}}+{\dot {\mathbf {\lambda } }}(t)&=0\end{aligned}}

Si tanto el valor inicial como el valor terminal son fijos, es decir , no se necesitan condiciones . Si el valor terminal es libre, como suele ser el caso, la condición adicional es necesaria para la optimización. Esta última se denomina condición de transversalidad para un problema de horizonte fijo. ^[7] $\mathbf {x} (t_{0})$ $\mathbf {x} (t_{1})$ $\mathrm {d} \mathbf {x} (t_{0})=\mathrm {d} \mathbf {x} (t_{1})=0$ $\mathbf {\lambda } (t_{0})$ $\mathbf {\lambda } (t_{1})$ $\mathbf {\lambda } (t_{1})=0$

Se puede observar que las condiciones necesarias son idénticas a las indicadas anteriormente para el hamiltoniano. Por tanto, el hamiltoniano puede entenderse como un dispositivo para generar las condiciones necesarias de primer orden. ^[8]

El hamiltoniano en tiempo discreto

Cuando el problema se formula en tiempo discreto, el hamiltoniano se define como:

H(x_{t},u_{t},\lambda _{t+1},t)=\lambda _{t+1}^{\top }f(x_{t},u_{t},t)+I(x_{t},u_{t},t)\,

y las ecuaciones de costate son

\lambda _{t}={\frac {\partial H}{\partial x_{t}}}

(Tenga en cuenta que el hamiltoniano de tiempo discreto en el tiempo implica la variable de coste en el tiempo ^[9]. Este pequeño detalle es esencial para que cuando diferenciamos con respecto a obtengamos un término que se encuentre en el lado derecho de las ecuaciones de coste. Usando una convención incorrecta aquí puede conducir a resultados incorrectos, es decir, una ecuación de costos que no es una ecuación en diferencias hacia atrás). $t$ $t+1.$ $x$ $\lambda (t+1)$

Comportamiento del hamiltoniano a lo largo del tiempo

Del principio de máximo de Pontryagin se pueden derivar condiciones especiales para el hamiltoniano. ^[10] Cuando el tiempo final es fijo y el hamiltoniano no depende explícitamente del tiempo , entonces: ^[11] $t_{1}$ $\left({\tfrac {\partial H}{\partial t}}=0\right)$

H(x^{*}(t),u^{*}(t),\lambda ^{*}(t))=\mathrm {constant} \,

o si el horario de la terminal está libre, entonces:

H(x^{*}(t),u^{*}(t),\lambda ^{*}(t))=0.\,

Además, si el tiempo terminal tiende al infinito , se aplica una condición de transversalidad en el hamiltoniano. ^[12]

\lim _{t\to \infty }H(t)=0

El Hamiltoniano de control comparado con el Hamiltoniano de mecánica

William Rowan Hamilton definió el hamiltoniano para describir la mecánica de un sistema. Es una función de tres variables y está relacionada con el lagrangiano como

{\mathcal {H}}(p,q,t)=\langle p,{\dot {q}}\rangle -L(q,{\dot {q}},t)

donde está el lagrangiano , cuya extremización determina la dinámica ( no el lagrangiano definido anteriormente) y es la variable de estado. El lagrangiano se evalúa representando la derivada temporal de la evolución del estado y , el llamado " impulso conjugado ", se relaciona con él como $L$ $q$ ${\dot {q}}$ $p$

p={\frac {\partial L}{\partial {\dot {q}}}}

Hamilton luego formuló sus ecuaciones para describir la dinámica del sistema como

{\frac {d}{dt}}p(t)=-{\frac {\partial }{\partial q}}{\mathcal {H}}

{\frac {d}{dt}}q(t)=~~{\frac {\partial }{\partial p}}{\mathcal {H}}

El hamiltoniano de la teoría del control no describe la dinámica de un sistema sino las condiciones para extremar alguna función escalar del mismo (el lagrangiano) con respecto a una variable de control . Como se define normalmente, es una función de 4 variables. $u$

H(q,u,p,t)=\langle p,{\dot {q}}\rangle -L(q,u,t)

donde es la variable de estado y es la variable de control respecto a aquello que estamos extremando. $q$ $u$

Las condiciones asociadas para un máximo son

{\frac {dp}{dt}}=-{\frac {\partial H}{\partial q}}

{\frac {dq}{dt}}=~~{\frac {\partial H}{\partial p}}

{\frac {\partial H}{\partial u}}=0

Esta definición concuerda con la dada por el artículo de Sussmann y Willems. ^[13] (ver pág. 39, ecuación 14). Sussmann y Willems muestran cómo se puede utilizar el control hamiltoniano en dinámica, por ejemplo, para el problema de la braquistocrona , pero no mencionan el trabajo previo de Carathéodory sobre este enfoque. ^[14]

Valor actual y valor presente hamiltoniano

En economía , la función objetivo en problemas de optimización dinámica a menudo depende directamente del tiempo sólo mediante descuento exponencial , de modo que toma la forma

I(\mathbf {x} (t),\mathbf {u} (t),t)=e^{-\rho t}\nu (\mathbf {x} (t),\mathbf {u} (t))

donde se conoce como función de utilidad instantánea o función de felicidad. ^[15] Esto permite una redefinición del hamiltoniano como donde $\nu (\mathbf {x} (t),\mathbf {u} (t))$ $H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)=e^{-\rho t}{\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t))$

{\begin{aligned}{\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t))\equiv &\,e^{\rho t}\left[I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)\right]\\=&\,\nu (\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\mu } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)\end{aligned}}

que se conoce como valor actual hamiltoniano, en contraste con el valor actual hamiltoniano definido en la primera sección. En particular, las variables de costo se redefinen como , lo que conduce a condiciones de primer orden modificadas. $H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)$ $\mathbf {\mu } (t)=e^{\rho t}\mathbf {\lambda } (t)$

{\frac {\partial {\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t))}{\partial \mathbf {u} }}=0

{\frac {\partial {\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t))}{\partial \mathbf {x} }}=-{\dot {\mathbf {\mu } }}(t)+\rho \mathbf {\mu } (t)

que se sigue inmediatamente de la regla del producto . Económicamente, representan precios sombra de valor actual para los bienes de capital . $\mathbf {\mu } (t)$ $\mathbf {x} (t)$

Ejemplo: modelo de Ramsey-Cass-Koopmans

En economía , el modelo de Ramsey-Cass-Koopmans se utiliza para determinar un comportamiento de ahorro óptimo para una economía. La función objetivo es la función de bienestar social , $J(c)$

J(c)=\int _{0}^{T}e^{-\rho t}u(c(t))dt

maximizarse mediante la elección de una ruta de consumo óptima . La función indica la utilidad del agente representativo del consumo en un momento dado. El factor representa el descuento . El problema de maximización está sujeto a la siguiente ecuación diferencial para la intensidad de capital , que describe la evolución temporal del capital por trabajador efectivo: $c(t)$ $u(c(t))$ $c$ $e^{-\rho t}$

{\dot {k}}={\frac {\partial k}{\partial t}}=f(k(t))-(n+\delta )k(t)-c(t)

donde es el consumo del período t, es el capital por trabajador del período t (con ), es la producción del período t, es la tasa de crecimiento de la población, es la tasa de depreciación del capital, el agente descuenta la utilidad futura a la tasa , con y . $c(t)$ $k(t)$ $k(0)=k_{0}>0$ $f(k(t))$ $n$ $\delta$ $\rho$ $u'>0$ $u''<0$

Aquí, está la variable de estado que evoluciona según la ecuación anterior y es la variable de control. El hamiltoniano se convierte $k(t)$ $c(t)$

H(k,c,\mu ,t)=e^{-\rho t}u(c(t))+\mu (t){\dot {k}}=e^{-\rho t}u(c(t))+\mu (t)[f(k(t))-(n+\delta )k(t)-c(t)]

Las condiciones de optimización son

{\frac {\partial H}{\partial c}}=0\Rightarrow e^{-\rho t}u'(c)=\mu (t)

{\frac {\partial H}{\partial k}}=-{\frac {\partial \mu }{\partial t}}=-{\dot {\mu }}\Rightarrow \mu (t)[f'(k)-(n+\delta )]=-{\dot {\mu }}

además de la condición de transversalidad . Si dejamos , entonces diferenciamos logarítmicamente la primera condición de optimización con respecto a los rendimientos $\mu (T)k(T)=0$ $u(c)=\log(c)$ $t$

-\rho -{\frac {\dot {c}}{c(t)}}={\frac {\dot {\mu }}{\mu (t)}}

Al insertar esta ecuación en la segunda condición de optimización se obtiene

\rho +{\frac {\dot {c}}{c(t)}}=f'(k)-(n+\delta )

que se conoce como regla de Keynes-Ramsey , que establece una condición para el consumo en cada período que, si se sigue, garantiza la máxima utilidad durante toda la vida.

Referencias

^ Ferguson, Brian S.; Lim, GC (1998). Introducción a los problemas económicos dinámicos . Manchester: Prensa de la Universidad de Manchester. págs. 166-167. ISBN 0-7190-4996-2.
^ Dixit, Avinash K. (1990). Optimización en teoría económica. Nueva York: Oxford University Press. págs. 145-161. ISBN 978-0-19-877210-1.
^ Kirk, Donald E. (1970). Teoría del control óptimo: una introducción . Acantilados de Englewood: Prentice Hall. pag. 232.ISBN 0-13-638098-0.
^ Gandolfo, Giancarlo (1996). Dinámica económica (Tercera ed.). Berlín: Springer. págs. 375–376. ISBN 3-540-60988-1.
^ Seierstad, Atle; Sydsaeter, Knut (1987). Teoría del control óptimo con aplicaciones económicas . Amsterdam: Holanda Septentrional. págs. 107-110. ISBN 0-444-87923-4.
^ Mangasarian, OL (1966). "Condiciones suficientes para el control óptimo de sistemas no lineales". Revista SIAM de Control . 4 (1): 139-152. doi :10.1137/0304013.
^ Leonardo, Daniel; Largo, Ngo Van (1992). "Restricciones de punto final y condiciones de transversalidad". Teoría del control óptimo y optimización estática en economía . Nueva York: Cambridge University Press. pag. 222 [Teorema 7.1.1]. ISBN 0-521-33158-7.
^ Kamien, Morton I.; Schwartz, Nancy L. (1991). Optimización dinámica: el cálculo de variaciones y el control óptimo en economía y gestión (Segunda ed.). Amsterdam: Holanda Septentrional. págs. 126-127. ISBN 0-444-01609-0.
^ Jönsson, U. (2005). "UNA VERSIÓN DISCRETA DE PMP" (PDF) . pag. 25. Archivado desde el original (PDF) el 22 de enero de 2023.
^ Naidu, Desineni S. (2003). Sistemas de Control Óptimo . Boca Ratón: CRC Press. págs. 259–260. ISBN 0-8493-0892-5.
^ Torres, Delfim FM (2002). "Una propiedad notable de los extremos de optimización dinámica". Investigación Operacional . 22 (2): 253–263. arXiv : matemáticas/0212102 .
^ Michel, Philippe (1982). "Sobre la condición de transversalidad en problemas óptimos de horizonte infinito". Econométrica . 50 (4): 975–985. doi :10.2307/1912772. JSTOR 1912772. S2CID 16503488.
^ Sussmann; Willems (junio de 1997). "300 años de control óptimo" (PDF) . Revista de sistemas de control IEEE . doi : 10.1109/37.588098. Archivado desde el original (PDF) el 30 de julio de 2010.
^ Véase Pesch, HJ; Bulirsch, R. (1994). "El principio máximo, la ecuación de Bellman y el trabajo de Carathéodory". Revista de teoría y aplicaciones de optimización . 80 (2): 199–225. doi :10.1007/BF02192933. S2CID 121749702.
^ Bævre, Kåre (primavera de 2005). "Econ 4350: Crecimiento e inversión: Nota de conferencia 7" (PDF) . Departamento de Economía, Universidad de Oslo.

Otras lecturas

Leonardo, Daniel; Largo, Ngo Van (1992). "El principio máximo". Teoría del control óptimo y optimización estática en economía . Nueva York: Cambridge University Press. págs. 127-168. ISBN 0-521-33158-7.
Takayama, Akira (1985). "Desarrollos de la teoría del control óptimo y sus aplicaciones". Economía Matemática (2ª ed.). Nueva York: Cambridge University Press. págs. 600–719. ISBN 0-521-31498-4.
Wulwick, Nancy (1995). "El formalismo hamiltoniano y la teoría del crecimiento óptimo". En Rima, IH (ed.). Medición, Cuantificación y Análisis Económico . Londres: Routledge. ISBN 978-0-415-08915-9.