La teoría del control óptimo es una rama de la teoría del control que se ocupa de encontrar un control para un sistema dinámico durante un período de tiempo de modo que se optimice una función objetivo . [1] Tiene numerosas aplicaciones en ciencia, ingeniería e investigación de operaciones. Por ejemplo, el sistema dinámico podría ser una nave espacial con controles correspondientes a propulsores de cohetes, y el objetivo podría ser llegar a la Luna con un gasto mínimo de combustible. [2] O el sistema dinámico podría ser la economía de una nación , con el objetivo de minimizar el desempleo ; los controles en este caso podrían ser la política fiscal y monetaria . [3] También se puede introducir un sistema dinámico para integrar problemas de investigación de operaciones en el marco de la teoría del control óptimo. [4] [5]
El control óptimo es una extensión del cálculo de variaciones y es un método de optimización matemática para derivar políticas de control . [6] El método se debe en gran medida al trabajo de Lev Pontryagin y Richard Bellman en la década de 1950, después de las contribuciones al cálculo de variaciones de Edward J. McShane . [7] El control óptimo puede verse como una estrategia de control en la teoría de control . [1]
El control óptimo se ocupa del problema de encontrar una ley de control para un sistema dado de modo que se alcance un determinado criterio de optimalidad . Un problema de control incluye una función de costo que es una función de las variables de estado y de control. Un control óptimo es un conjunto de ecuaciones diferenciales que describen las trayectorias de las variables de control que minimizan la función de costo. El control óptimo se puede derivar utilizando el principio de máximo de Pontryagin (una condición necesaria también conocida como principio de mínimo de Pontryagin o simplemente principio de Pontryagin), [8] o resolviendo la ecuación de Hamilton-Jacobi-Bellman (una condición suficiente ).
Empecemos con un ejemplo sencillo. Consideremos un coche que viaja en línea recta por una carretera con cuestas. La pregunta es: ¿cómo debe el conductor pisar el acelerador para minimizar el tiempo total de viaje? En este ejemplo, el término ley de control se refiere específicamente a la forma en que el conductor pisa el acelerador y cambia de marcha. El sistema está formado tanto por el coche como por la carretera, y el criterio de optimalidad es la minimización del tiempo total de viaje. Los problemas de control suelen incluir restricciones auxiliares . Por ejemplo, la cantidad de combustible disponible puede ser limitada, el pedal del acelerador no puede pisarse hasta el suelo del coche, límites de velocidad, etc.
Una función de costo adecuada será una expresión matemática que dé el tiempo de viaje en función de la velocidad, consideraciones geométricas y condiciones iniciales del sistema. Las restricciones suelen ser intercambiables con la función de costo.
Otro problema de control óptimo relacionado puede ser el de encontrar la manera de conducir el automóvil de modo que se minimice su consumo de combustible, dado que debe completar un trayecto determinado en un tiempo que no exceda una cierta cantidad. Otro problema de control relacionado puede ser el de minimizar el costo monetario total de completar el viaje, dados los precios monetarios asumidos para el tiempo y el combustible.
Un marco más abstracto es el siguiente. [1] Minimizar el funcional de costo de tiempo continuo sujeto a las restricciones dinámicas de primer orden (la ecuación de estado ), las restricciones de ruta algebraica y las condiciones de punto final donde es el estado , es el control , es la variable independiente (generalmente hablando, tiempo), es el tiempo inicial y es el tiempo terminal. Los términos y se denominan costo de punto final y costo de funcionamiento respectivamente. En el cálculo de variaciones, y se conocen como el término de Mayer y el lagrangiano , respectivamente. Además, se observa que las restricciones de ruta son en general restricciones de desigualdad y, por lo tanto, pueden no estar activas (es decir, iguales a cero) en la solución óptima. También se observa que el problema de control óptimo como se indicó anteriormente puede tener múltiples soluciones (es decir, la solución puede no ser única). Por lo tanto, es más frecuente el caso de que cualquier solución al problema de control óptimo sea localmente minimizadora de .
Un caso especial del problema general de control óptimo no lineal dado en la sección anterior es el problema de control óptimo cuadrático lineal (LQ) . El problema LQ se enuncia de la siguiente manera. Minimizar la función de costo continuo en tiempo cuadrático
Sujeto a las restricciones dinámicas lineales de primer orden y a la condición inicial
Una forma particular del problema LQ que surge en muchos problemas de sistemas de control es la del regulador cuadrático lineal (LQR) donde todas las matrices (es decir, , , y ) son constantes , el tiempo inicial se establece arbitrariamente en cero y el tiempo terminal se toma en el límite (esta última suposición es lo que se conoce como horizonte infinito ). El problema LQR se enuncia de la siguiente manera. Minimizar la función de costo de tiempo continuo cuadrático de horizonte infinito
Sujeto a las restricciones dinámicas de primer orden lineales e invariantes en el tiempo y a la condición inicial
En el caso del horizonte finito, las matrices están restringidas en que y son semidefinidas positivas y definidas positivas, respectivamente. Sin embargo, en el caso del horizonte infinito, las matrices y no solo son semidefinidas positivas y definidas positivas, respectivamente, sino que también son constantes . Estas restricciones adicionales sobre y en el caso del horizonte infinito se aplican para garantizar que la función de costo siga siendo positiva. Además, para garantizar que la función de costo esté acotada , se impone la restricción adicional de que el par sea controlable . Nótese que la función de costo LQ o LQR puede considerarse físicamente como un intento de minimizar la energía de control (medida como una forma cuadrática).
El problema del horizonte infinito (es decir, LQR) puede parecer demasiado restrictivo y esencialmente inútil porque supone que el operador está llevando el sistema al estado cero y, por lo tanto, llevando la salida del sistema a cero. Esto es correcto. Sin embargo, el problema de llevar la salida a un nivel deseado distinto de cero se puede resolver después de que se alcance el nivel de salida cero. De hecho, se puede demostrar que este problema LQR secundario se puede resolver de una manera muy sencilla. Se ha demostrado en la teoría clásica de control óptimo que el control óptimo LQ (o LQR) tiene la forma de retroalimentación donde es una matriz correctamente dimensionada, dada como y es la solución de la ecuación diferencial de Riccati . La ecuación diferencial de Riccati se da como
Para el problema LQ de horizonte finito, la ecuación de Riccati se integra hacia atrás en el tiempo utilizando la condición de contorno terminal
Para el problema LQR de horizonte infinito, la ecuación diferencial de Riccati se reemplaza con la ecuación algebraica de Riccati (ARE) dada como
Entendiendo que el ARE surge del problema del horizonte infinito, las matrices , , , y son todas constantes . Se observa que en general hay múltiples soluciones para la ecuación algebraica de Riccati y la solución definida positiva (o semidefinida positiva) es la que se utiliza para calcular la ganancia de retroalimentación. El problema LQ (LQR) fue resuelto elegantemente por Rudolf E. Kálmán . [9]
Los problemas de control óptimo son generalmente no lineales y por lo tanto, generalmente no tienen soluciones analíticas (por ejemplo, como el problema de control óptimo lineal-cuadrático). Como resultado, es necesario emplear métodos numéricos para resolver problemas de control óptimo. En los primeros años del control óptimo ( c. 1950 a 1980) el enfoque favorecido para resolver problemas de control óptimo fue el de los métodos indirectos . En un método indirecto, se emplea el cálculo de variaciones para obtener las condiciones de optimalidad de primer orden. Estas condiciones dan como resultado un problema de valor límite de dos puntos (o, en el caso de un problema complejo, un problema de valor límite de múltiples puntos) . Este problema de valor límite en realidad tiene una estructura especial porque surge de tomar la derivada de un hamiltoniano . Por lo tanto, el sistema dinámico resultante es un sistema hamiltoniano de la forma [1] donde es el hamiltoniano aumentado y en un método indirecto, se resuelve el problema de valor límite (utilizando las condiciones de límite o transversalidad apropiadas ). La ventaja de utilizar un método indirecto es que se resuelven el estado y el adjunto (es decir, ) y se verifica fácilmente que la solución resultante es una trayectoria extremal. La desventaja de los métodos indirectos es que el problema de valor límite suele ser extremadamente difícil de resolver (en particular para problemas que abarcan grandes intervalos de tiempo o problemas con restricciones de puntos interiores). Un programa de software conocido que implementa métodos indirectos es BNDSCO. [10]
El enfoque que ha cobrado importancia en el control numérico óptimo desde la década de 1980 es el de los denominados métodos directos . En un método directo, el estado o el control, o ambos, se aproximan utilizando una aproximación de función adecuada (por ejemplo, aproximación polinómica o parametrización constante por partes). Simultáneamente, la función de coste se aproxima como una función de coste . A continuación, los coeficientes de las aproximaciones de función se tratan como variables de optimización y el problema se "transcribe" a un problema de optimización no lineal de la forma:
Minimizar sujeto a las restricciones algebraicas
Dependiendo del tipo de método directo empleado, el tamaño del problema de optimización no lineal puede ser bastante pequeño (por ejemplo, como en un método de disparo directo o cuasilinealización ), moderado (por ejemplo, control óptimo pseudoespectral [11] ) o puede ser bastante grande (por ejemplo, un método de colocación directa [12] ). En el último caso (es decir, un método de colocación), el problema de optimización no lineal puede ser literalmente de miles a decenas de miles de variables y restricciones. Dado el tamaño de muchos NLP que surgen de un método directo, puede parecer algo contra-intuitivo que resolver el problema de optimización no lineal sea más fácil que resolver el problema de valor límite. Sin embargo, es el hecho de que el NLP es más fácil de resolver que el problema de valor límite. La razón de la relativa facilidad de cálculo, particularmente de un método de colocación directa, es que el NLP es disperso y existen muchos programas de software conocidos (por ejemplo, SNOPT [13] ) para resolver grandes NLP dispersos. Como resultado, el rango de problemas que pueden resolverse mediante métodos directos (particularmente métodos de colocación directa que son muy populares en estos días) es significativamente mayor que el rango de problemas que pueden resolverse mediante métodos indirectos. De hecho, los métodos directos se han vuelto tan populares en estos días que muchas personas han escrito programas de software elaborados que emplean estos métodos. En particular, muchos de estos programas incluyen DIRCOL , [14] SOCS, [15] OTIS, [16] GESOP/ ASTOS , [17] DITAN. [18] y PyGMO/PyKEP. [19] En los últimos años, debido al advenimiento del lenguaje de programación MATLAB , el software de control óptimo en MATLAB se ha vuelto más común. Ejemplos de herramientas de software MATLAB desarrolladas académicamente que implementan métodos directos incluyen RIOTS , [20] DIDO , [21] DIRECT , [22] FALCON.m, [23] y GPOPS, [24] mientras que un ejemplo de una herramienta MATLAB desarrollada por la industria es PROPT . [25] Estas herramientas de software han aumentado significativamente la oportunidad de que las personas exploren problemas complejos de control óptimo tanto para la investigación académica como para problemas industriales. [26] Finalmente, se observa que los entornos de optimización de MATLAB de propósito general como TOMLAB han hecho que la codificación de problemas complejos de control óptimo sea significativamente más fácil de lo que antes era posible en lenguajes como C y FORTRAN .
Los ejemplos hasta ahora han mostrado sistemas de tiempo continuo y soluciones de control. De hecho, como las soluciones de control óptimas ahora se implementan a menudo digitalmente , la teoría de control contemporánea ahora se ocupa principalmente de sistemas y soluciones de tiempo discreto . La teoría de aproximaciones consistentes [27] [28] proporciona condiciones bajo las cuales las soluciones a una serie de problemas de control óptimos discretizados cada vez más precisos convergen a la solución del problema original de tiempo continuo. No todos los métodos de discretización tienen esta propiedad, incluso los aparentemente obvios. [29] Por ejemplo, usar una rutina de tamaño de paso variable para integrar las ecuaciones dinámicas del problema puede generar un gradiente que no converge a cero (o apunta en la dirección correcta) a medida que se aproxima a la solución. El método directo RIOTS se basa en la teoría de aproximación consistente.
Una estrategia de solución común en muchos problemas de control óptimo es resolver el coste-estado (a veces llamado precio sombra ) . El coste-estado resume en un número el valor marginal de expandir o contraer la variable de estado en el siguiente turno. El valor marginal no solo son las ganancias que se le acumulan en el siguiente turno, sino que también está asociado con la duración del programa. Es bueno cuando se puede resolver analíticamente, pero por lo general, lo máximo que se puede hacer es describirlo lo suficientemente bien como para que la intuición pueda captar el carácter de la solución y un solucionador de ecuaciones pueda resolver numéricamente los valores.
Una vez obtenido , el valor óptimo de giro t para el control se puede resolver generalmente como una ecuación diferencial condicional al conocimiento de . Nuevamente, es poco frecuente, especialmente en problemas de tiempo continuo, que se obtenga el valor del control o el estado de manera explícita. Por lo general, la estrategia consiste en resolver los umbrales y las regiones que caracterizan el control óptimo y utilizar un solucionador numérico para aislar los valores de elección reales en el tiempo.
Consideremos el problema del propietario de una mina que debe decidir a qué ritmo extraer mineral de su mina. Posee derechos sobre el mineral de fecha a fecha . En fecha hay mineral en el suelo, y la cantidad de mineral que queda en el suelo, que depende del tiempo, disminuye a la tasa en que el propietario de la mina lo extrae. El propietario de la mina extrae el mineral al costo (el costo de extracción aumenta con el cuadrado de la velocidad de extracción y la inversa de la cantidad de mineral que queda) y vende el mineral a un precio constante . Cualquier mineral que quede en el suelo en ese momento no se puede vender y no tiene valor (no hay "valor de desecho"). El propietario elige la tasa de extracción que varía con el tiempo para maximizar las ganancias durante el período de propiedad sin descuento temporal.
El gerente maximiza el beneficio : sujeto a la ley de movimiento para la variable de estado
Formar el hamiltoniano y diferenciar:
Como el dueño de la mina no valora el mineral que queda en el momento ,
Usando las ecuaciones anteriores, es fácil resolver la serie y
y utilizando las condiciones iniciales y de giro T, la serie se puede resolver explícitamente, dando .El gerente maximiza el beneficio : donde la variable estado evoluciona de la siguiente manera:
Formar el hamiltoniano y diferenciar:
Como el dueño de la mina no valora el mineral que queda en el momento ,
Usando las ecuaciones anteriores, es fácil resolver las ecuaciones diferenciales que gobiernan y y usando las condiciones iniciales y de giro, las funciones se pueden resolver para obtener