stringtranslate.com

Control óptimo

Problema de control óptimo de referencia (Luus) con objetivo integral, desigualdad y restricción diferencial

La teoría del control óptimo es una rama de la teoría del control que se ocupa de encontrar un control para un sistema dinámico durante un período de tiempo de modo que se optimice una función objetivo . [1] Tiene numerosas aplicaciones en ciencia, ingeniería e investigación de operaciones. Por ejemplo, el sistema dinámico podría ser una nave espacial con controles correspondientes a propulsores de cohetes, y el objetivo podría ser llegar a la Luna con un gasto mínimo de combustible. [2] O el sistema dinámico podría ser la economía de una nación , con el objetivo de minimizar el desempleo ; los controles en este caso podrían ser la política fiscal y monetaria . [3] También se puede introducir un sistema dinámico para integrar problemas de investigación de operaciones en el marco de la teoría del control óptimo. [4] [5]

El control óptimo es una extensión del cálculo de variaciones y es un método de optimización matemática para derivar políticas de control . [6] El método se debe en gran medida al trabajo de Lev Pontryagin y Richard Bellman en la década de 1950, después de las contribuciones al cálculo de variaciones de Edward J. McShane . [7] El control óptimo puede verse como una estrategia de control en la teoría de control . [1]

Método general

El control óptimo se ocupa del problema de encontrar una ley de control para un sistema dado de modo que se alcance un determinado criterio de optimalidad . Un problema de control incluye una función de costo que es una función de las variables de estado y de control. Un control óptimo es un conjunto de ecuaciones diferenciales que describen las trayectorias de las variables de control que minimizan la función de costo. El control óptimo se puede derivar utilizando el principio de máximo de Pontryagin (una condición necesaria también conocida como principio de mínimo de Pontryagin o simplemente principio de Pontryagin), [8] o resolviendo la ecuación de Hamilton-Jacobi-Bellman (una condición suficiente ).

Empecemos con un ejemplo sencillo. Consideremos un coche que viaja en línea recta por una carretera con cuestas. La pregunta es: ¿cómo debe el conductor pisar el acelerador para minimizar el tiempo total de viaje? En este ejemplo, el término ley de control se refiere específicamente a la forma en que el conductor pisa el acelerador y cambia de marcha. El sistema está formado tanto por el coche como por la carretera, y el criterio de optimalidad es la minimización del tiempo total de viaje. Los problemas de control suelen incluir restricciones auxiliares . Por ejemplo, la cantidad de combustible disponible puede ser limitada, el pedal del acelerador no puede pisarse hasta el suelo del coche, límites de velocidad, etc.

Una función de costo adecuada será una expresión matemática que dé el tiempo de viaje en función de la velocidad, consideraciones geométricas y condiciones iniciales del sistema. Las restricciones suelen ser intercambiables con la función de costo.

Otro problema de control óptimo relacionado puede ser el de encontrar la manera de conducir el automóvil de modo que se minimice su consumo de combustible, dado que debe completar un trayecto determinado en un tiempo que no exceda una cierta cantidad. Otro problema de control relacionado puede ser el de minimizar el costo monetario total de completar el viaje, dados los precios monetarios asumidos para el tiempo y el combustible.

Un marco más abstracto es el siguiente. [1] Minimizar el funcional de costo de tiempo continuo sujeto a las restricciones dinámicas de primer orden (la ecuación de estado ), las restricciones de ruta algebraica y las condiciones de punto final donde es el estado , es el control , es la variable independiente (generalmente hablando, tiempo), es el tiempo inicial y es el tiempo terminal. Los términos y se denominan costo de punto final y costo de funcionamiento respectivamente. En el cálculo de variaciones, y se conocen como el término de Mayer y el lagrangiano , respectivamente. Además, se observa que las restricciones de ruta son en general restricciones de desigualdad y, por lo tanto, pueden no estar activas (es decir, iguales a cero) en la solución óptima. También se observa que el problema de control óptimo como se indicó anteriormente puede tener múltiples soluciones (es decir, la solución puede no ser única). Por lo tanto, es más frecuente el caso de que cualquier solución al problema de control óptimo sea localmente minimizadora de .

Control cuadrático lineal

Un caso especial del problema general de control óptimo no lineal dado en la sección anterior es el problema de control óptimo cuadrático lineal (LQ) . El problema LQ se enuncia de la siguiente manera. Minimizar la función de costo continuo en tiempo cuadrático

Sujeto a las restricciones dinámicas lineales de primer orden y a la condición inicial

Una forma particular del problema LQ que surge en muchos problemas de sistemas de control es la del regulador cuadrático lineal (LQR) donde todas las matrices (es decir, , , y ) son constantes , el tiempo inicial se establece arbitrariamente en cero y el tiempo terminal se toma en el límite (esta última suposición es lo que se conoce como horizonte infinito ). El problema LQR se enuncia de la siguiente manera. Minimizar la función de costo de tiempo continuo cuadrático de horizonte infinito

Sujeto a las restricciones dinámicas de primer orden lineales e invariantes en el tiempo y a la condición inicial

En el caso del horizonte finito, las matrices están restringidas en que y son semidefinidas positivas y definidas positivas, respectivamente. Sin embargo, en el caso del horizonte infinito, las matrices y no solo son semidefinidas positivas y definidas positivas, respectivamente, sino que también son constantes . Estas restricciones adicionales sobre y en el caso del horizonte infinito se aplican para garantizar que la función de costo siga siendo positiva. Además, para garantizar que la función de costo esté acotada , se impone la restricción adicional de que el par sea controlable . Nótese que la función de costo LQ o LQR puede considerarse físicamente como un intento de minimizar la energía de control (medida como una forma cuadrática).

El problema del horizonte infinito (es decir, LQR) puede parecer demasiado restrictivo y esencialmente inútil porque supone que el operador está llevando el sistema al estado cero y, por lo tanto, llevando la salida del sistema a cero. Esto es correcto. Sin embargo, el problema de llevar la salida a un nivel deseado distinto de cero se puede resolver después de que se alcance el nivel de salida cero. De hecho, se puede demostrar que este problema LQR secundario se puede resolver de una manera muy sencilla. Se ha demostrado en la teoría clásica de control óptimo que el control óptimo LQ (o LQR) tiene la forma de retroalimentación donde es una matriz correctamente dimensionada, dada como y es la solución de la ecuación diferencial de Riccati . La ecuación diferencial de Riccati se da como

Para el problema LQ de horizonte finito, la ecuación de Riccati se integra hacia atrás en el tiempo utilizando la condición de contorno terminal

Para el problema LQR de horizonte infinito, la ecuación diferencial de Riccati se reemplaza con la ecuación algebraica de Riccati (ARE) dada como

Entendiendo que el ARE surge del problema del horizonte infinito, las matrices , , , y son todas constantes . Se observa que en general hay múltiples soluciones para la ecuación algebraica de Riccati y la solución definida positiva (o semidefinida positiva) es la que se utiliza para calcular la ganancia de retroalimentación. El problema LQ (LQR) fue resuelto elegantemente por Rudolf E. Kálmán . [9]

Métodos numéricos para un control óptimo

Los problemas de control óptimo son generalmente no lineales y por lo tanto, generalmente no tienen soluciones analíticas (por ejemplo, como el problema de control óptimo lineal-cuadrático). Como resultado, es necesario emplear métodos numéricos para resolver problemas de control óptimo. En los primeros años del control óptimo ( c. 1950 a 1980) el enfoque favorecido para resolver problemas de control óptimo fue el de los métodos indirectos . En un método indirecto, se emplea el cálculo de variaciones para obtener las condiciones de optimalidad de primer orden. Estas condiciones dan como resultado un problema de valor límite de dos puntos (o, en el caso de un problema complejo, un problema de valor límite de múltiples puntos) . Este problema de valor límite en realidad tiene una estructura especial porque surge de tomar la derivada de un hamiltoniano . Por lo tanto, el sistema dinámico resultante es un sistema hamiltoniano de la forma [1] donde es el hamiltoniano aumentado y en un método indirecto, se resuelve el problema de valor límite (utilizando las condiciones de límite o transversalidad apropiadas ). La ventaja de utilizar un método indirecto es que se resuelven el estado y el adjunto (es decir, ) y se verifica fácilmente que la solución resultante es una trayectoria extremal. La desventaja de los métodos indirectos es que el problema de valor límite suele ser extremadamente difícil de resolver (en particular para problemas que abarcan grandes intervalos de tiempo o problemas con restricciones de puntos interiores). Un programa de software conocido que implementa métodos indirectos es BNDSCO. [10]

El enfoque que ha cobrado importancia en el control numérico óptimo desde la década de 1980 es el de los denominados métodos directos . En un método directo, el estado o el control, o ambos, se aproximan utilizando una aproximación de función adecuada (por ejemplo, aproximación polinómica o parametrización constante por partes). Simultáneamente, la función de coste se aproxima como una función de coste . A continuación, los coeficientes de las aproximaciones de función se tratan como variables de optimización y el problema se "transcribe" a un problema de optimización no lineal de la forma:

Minimizar sujeto a las restricciones algebraicas

Dependiendo del tipo de método directo empleado, el tamaño del problema de optimización no lineal puede ser bastante pequeño (por ejemplo, como en un método de disparo directo o cuasilinealización ), moderado (por ejemplo, control óptimo pseudoespectral [11] ) o puede ser bastante grande (por ejemplo, un método de colocación directa [12] ). En el último caso (es decir, un método de colocación), el problema de optimización no lineal puede ser literalmente de miles a decenas de miles de variables y restricciones. Dado el tamaño de muchos NLP que surgen de un método directo, puede parecer algo contra-intuitivo que resolver el problema de optimización no lineal sea más fácil que resolver el problema de valor límite. Sin embargo, es el hecho de que el NLP es más fácil de resolver que el problema de valor límite. La razón de la relativa facilidad de cálculo, particularmente de un método de colocación directa, es que el NLP es disperso y existen muchos programas de software conocidos (por ejemplo, SNOPT [13] ) para resolver grandes NLP dispersos. Como resultado, el rango de problemas que pueden resolverse mediante métodos directos (particularmente métodos de colocación directa que son muy populares en estos días) es significativamente mayor que el rango de problemas que pueden resolverse mediante métodos indirectos. De hecho, los métodos directos se han vuelto tan populares en estos días que muchas personas han escrito programas de software elaborados que emplean estos métodos. En particular, muchos de estos programas incluyen DIRCOL , [14] SOCS, [15] OTIS, [16] GESOP/ ASTOS , [17] DITAN. [18] y PyGMO/PyKEP. [19] En los últimos años, debido al advenimiento del lenguaje de programación MATLAB , el software de control óptimo en MATLAB se ha vuelto más común. Ejemplos de herramientas de software MATLAB desarrolladas académicamente que implementan métodos directos incluyen RIOTS , [20] DIDO , [21] DIRECT , [22] FALCON.m, [23] y GPOPS, [24] mientras que un ejemplo de una herramienta MATLAB desarrollada por la industria es PROPT . [25] Estas herramientas de software han aumentado significativamente la oportunidad de que las personas exploren problemas complejos de control óptimo tanto para la investigación académica como para problemas industriales. [26] Finalmente, se observa que los entornos de optimización de MATLAB de propósito general como TOMLAB han hecho que la codificación de problemas complejos de control óptimo sea significativamente más fácil de lo que antes era posible en lenguajes como C y FORTRAN .

Control óptimo en tiempo discreto

Los ejemplos hasta ahora han mostrado sistemas de tiempo continuo y soluciones de control. De hecho, como las soluciones de control óptimas ahora se implementan a menudo digitalmente , la teoría de control contemporánea ahora se ocupa principalmente de sistemas y soluciones de tiempo discreto . La teoría de aproximaciones consistentes [27] [28] proporciona condiciones bajo las cuales las soluciones a una serie de problemas de control óptimos discretizados cada vez más precisos convergen a la solución del problema original de tiempo continuo. No todos los métodos de discretización tienen esta propiedad, incluso los aparentemente obvios. [29] Por ejemplo, usar una rutina de tamaño de paso variable para integrar las ecuaciones dinámicas del problema puede generar un gradiente que no converge a cero (o apunta en la dirección correcta) a medida que se aproxima a la solución. El método directo RIOTS se basa en la teoría de aproximación consistente.

Ejemplos

Una estrategia de solución común en muchos problemas de control óptimo es resolver el coste-estado (a veces llamado precio sombra ) . El coste-estado resume en un número el valor marginal de expandir o contraer la variable de estado en el siguiente turno. El valor marginal no solo son las ganancias que se le acumulan en el siguiente turno, sino que también está asociado con la duración del programa. Es bueno cuando se puede resolver analíticamente, pero por lo general, lo máximo que se puede hacer es describirlo lo suficientemente bien como para que la intuición pueda captar el carácter de la solución y un solucionador de ecuaciones pueda resolver numéricamente los valores.

Una vez obtenido , el valor óptimo de giro t para el control se puede resolver normalmente como una ecuación diferencial condicionada al conocimiento de . Nuevamente, es poco frecuente, especialmente en problemas de tiempo continuo, que se obtenga el valor del control o el estado de manera explícita. Por lo general, la estrategia consiste en resolver los umbrales y las regiones que caracterizan el control óptimo y utilizar un solucionador numérico para aislar los valores de elección reales en el tiempo.

Tiempo finito

Consideremos el problema del propietario de una mina que debe decidir a qué ritmo extraer mineral de su mina. Posee derechos sobre el mineral de fecha a fecha . En fecha hay mineral en el suelo, y la cantidad de mineral que queda en el suelo, que depende del tiempo, disminuye a la tasa en que el propietario de la mina lo extrae. El propietario de la mina extrae el mineral al costo (el costo de extracción aumenta con el cuadrado de la velocidad de extracción y la inversa de la cantidad de mineral que queda) y vende el mineral a un precio constante . Cualquier mineral que quede en el suelo en ese momento no se puede vender y no tiene valor (no hay "valor de desecho"). El propietario elige la tasa de extracción que varía con el tiempo para maximizar las ganancias durante el período de propiedad sin descuento temporal.

  1. Versión de tiempo discreto

    El gerente maximiza el beneficio : sujeto a la ley de movimiento para la variable de estado

    Formar el hamiltoniano y diferenciar:

    Como el dueño de la mina no valora el mineral que queda en el momento ,

    Usando las ecuaciones anteriores, es fácil resolver la serie y

    y utilizando las condiciones iniciales y de giro T, la serie se puede resolver explícitamente, dando .
  2. Versión de tiempo continuo

    El gerente maximiza el beneficio : donde la variable estado evoluciona de la siguiente manera:

    Formar el hamiltoniano y diferenciar:

    Como el dueño de la mina no valora el mineral que queda en el momento ,

    Usando las ecuaciones anteriores, es fácil resolver las ecuaciones diferenciales que gobiernan y y usando las condiciones iniciales y de giro, las funciones se pueden resolver para obtener

Véase también

Referencias

  1. ^ abcd Ross, Isaac (2015). Introducción al principio de Pontryagin en el control óptimo . San Francisco: Collegiate Publishers. ISBN 978-0-9843571-0-9.OCLC 625106088  .
  2. ^ Luenberger, David G. (1979). "Control óptimo". Introducción a los sistemas dinámicos . Nueva York: John Wiley & Sons. págs. 393–435. ISBN 0-471-02594-1.
  3. ^ Kamien, Morton I. (2013). Optimización dinámica: el cálculo de variaciones y el control óptimo en economía y gestión. Publicaciones de Dover. ISBN 978-1-306-39299-0.OCLC 869522905  .
  4. ^ Ross, IM; Proulx, RJ; Karpenko, M. (6 de mayo de 2020). "Una teoría de control óptimo para el problema del viajante y sus variantes". arXiv : 2005.03186 [math.OC].
  5. ^ Ross, Isaac M.; Karpenko, Mark; Proulx, Ronald J. (1 de enero de 2016). "Un cálculo no uniforme para resolver algunos problemas de control de teoría de grafos**Esta investigación fue patrocinada por la Marina de los EE. UU." IFAC-PapersOnLine . 10.º Simposio IFAC sobre sistemas de control no lineal NOLCOS 2016. 49 (18): 462–467. doi : 10.1016/j.ifacol.2016.10.208 . ISSN  2405-8963.
  6. ^ Sargent, RWH (2000). "Control óptimo". Revista de matemáticas computacionales y aplicadas . 124 (1–2): 361–371. Código Bibliográfico :2000JCoAM.124..361S. doi : 10.1016/S0377-0427(00)00418-0 .
  7. ^ Bryson, AE (1996). "Control óptimo: de 1950 a 1985". Revista IEEE Control Systems . 16 (3): 26–33. doi :10.1109/37.506395.
  8. ^ Ross, IM (2009). Introducción al principio de Pontryagin en el control óptimo . Collegiate Publishers. ISBN 978-0-9843571-0-9.
  9. ^ Kalman, Rudolf. Un nuevo enfoque para los problemas de filtrado y predicción lineal . Transactions of the ASME, Journal of Basic Engineering, 82:34–45, 1960
  10. ^ Oberle, HJ y Grimm, W., "BNDSCO-A Program for the Numerical Solution of Optimal Control Problems", Instituto de Dinámica de Sistemas de Vuelo, DLR, Oberpfaffenhofen, 1989
  11. ^ Ross, IM ; Karpenko, M. (2012). "Una revisión del control óptimo pseudoespectral: de la teoría al vuelo" . Revisiones anuales en control . 36 (2): 182–197. doi :10.1016/j.arcontrol.2012.09.002.
  12. ^ Betts, JT (2010). Métodos prácticos para el control óptimo mediante programación no lineal (2.ª ed.). Filadelfia, Pensilvania: SIAM Press. ISBN 978-0-89871-688-7.
  13. ^ Gill, PE, Murray, WM y Saunders, MA, Manual del usuario de SNOPT versión 7: software para programación no lineal a gran escala , Informe de la Universidad de California, San Diego, 24 de abril de 2007
  14. ^ von Stryk, O., Guía del usuario de DIRCOL (versión 2.1): un método de colocación directa para la solución numérica de problemas de control óptimo , Fachgebiet Simulation und Systemoptimierung (SIM), Technische Universität Darmstadt (2000, versión de noviembre de 1999).
  15. ^ Betts, JT y Huffman, WP, Sparse Optimal Control Software, SOCS , Boeing Information and Support Services, Seattle, Washington, julio de 1997
  16. ^ Hargraves, CR; París, SW (1987). "Optimización de trayectoria directa mediante programación no lineal y colocación". Revista de guía, control y dinámica . 10 (4): 338–342. Código Bibliográfico :1987JGCD...10..338H. doi :10.2514/3.20223.
  17. ^ Gath, PF, Well, KH, "Optimización de la trayectoria mediante una combinación de disparos múltiples directos y colocación", AIAA 2001–4047, Conferencia de guía, navegación y control de la AIAA, Montreal, Quebec, Canadá, 6–9 de agosto de 2001
  18. ^ Vasile M., Bernelli-Zazzera F., Fornasari N., Masarati P., "Diseño de misiones interplanetarias y lunares que combinen asistencia gravitatoria y de bajo empuje", Informe final del contrato de estudio ESA/ESOC n.º 14126/00/D/CS, septiembre de 2002
  19. ^ Izzo, Dario. "PyGMO y PyKEP: herramientas de código abierto para la optimización masivamente paralela en astrodinámica (el caso de la optimización de trayectorias interplanetarias)". Actas. Quinta Conferencia Internacional sobre Astrodinámica. Herramientas y técnicas, ICATT. 2012.
  20. ^ RIOTS Archivado el 16 de julio de 2011 en Wayback Machine , basado en Schwartz, Adam (1996). Teoría e implementación de métodos basados ​​en la integración de Runge-Kutta para resolver problemas de control óptimo (Ph.D.). Universidad de California en Berkeley. OCLC  35140322.
  21. ^ Ross, IM, Mejoras en la caja de herramientas de control óptimo DIDO, arXiv 2020. https://arxiv.org/abs/2004.13112
  22. ^ Williams, P., Guía del usuario de DIRECT, versión 2.00, Melbourne, Australia, 2008
  23. ^ FALCON.m, descrito en Rieck, M., Bittner, M., Grüter, B., Diepolder, J. y Piprek, P., FALCON.m - User Guide , Instituto de Dinámica de Sistemas de Vuelo, Universidad Técnica de Múnich, octubre de 2019
  24. ^ GPOPS Archivado el 24 de julio de 2011 en Wayback Machine ., descrito en Rao, AV, Benson, DA, Huntington, GT, Francolin, C., Darby, CL y Patterson, MA, User's Manual for GPOPS: A MATLAB Package for Dynamic Optimization Using the Gauss Pseudospectral Method , Informe de la Universidad de Florida, agosto de 2008.
  25. ^ Rutquist, P. y Edvall, M. M, PROPT – Software de control óptimo de MATLAB", 1260 SE Bishop Blvd Ste E, Pullman, WA 99163, EE. UU.: Tomlab Optimization, Inc.
  26. ^ IM Ross, Control óptimo computacional, 3.er taller sobre cuestiones computacionales en control no lineal, 8 de octubre de 2019, Monterey, CA
  27. ^ E. Polak, Sobre el uso de aproximaciones consistentes en la solución de problemas de optimización semiinfinita y control óptimo Math. Prog. 62 págs. 385–415 (1993).
  28. ^ Ross, I M. (1 de diciembre de 2005). "Una hoja de ruta para un control óptimo: la forma correcta de viajar". Anales de la Academia de Ciencias de Nueva York . 1065 (1): 210–231. Bibcode :2005NYASA1065..210R. doi :10.1196/annals.1370.015. ISSN  0077-8923. PMID  16510411. S2CID  7625851.
  29. ^ Fahroo, Fariba; Ross, I. Michael (septiembre de 2008). "La convergencia de las cotas no implica la convergencia del control". Revista de orientación, control y dinámica . 31 (5): 1492–1497. Bibcode :2008JGCD...31.1492F. doi :10.2514/1.37331. hdl : 10945/57005 . ISSN  0731-5090. S2CID  756939.

Lectura adicional

Enlaces externos