stringtranslate.com

Control óptimo

Punto de referencia del problema de control óptimo (Luus) con objetivo integral, desigualdad y restricción diferencial

La teoría del control óptimo es una rama de la teoría del control que se ocupa de encontrar un control para un sistema dinámico durante un período de tiempo tal que se optimice una función objetivo . [1] Tiene numerosas aplicaciones en ciencia, ingeniería e investigación de operaciones. Por ejemplo, el sistema dinámico podría ser una nave espacial con controles correspondientes a propulsores de cohetes, y el objetivo podría ser llegar a la Luna con el mínimo gasto de combustible. [2] O el sistema dinámico podría ser la economía de una nación , con el objetivo de minimizar el desempleo ; los controles en este caso podrían ser la política fiscal y monetaria . [3] También se puede introducir un sistema dinámico para integrar los problemas de investigación de operaciones dentro del marco de la teoría del control óptimo. [4] [5]

El control óptimo es una extensión del cálculo de variaciones y es un método de optimización matemática para derivar políticas de control . [6] El método se debe en gran medida al trabajo de Lev Pontryagin y Richard Bellman en la década de 1950, después de las contribuciones al cálculo de variaciones de Edward J. McShane . [7] El control óptimo puede verse como una estrategia de control en la teoría del control . [1]

método general

El control óptimo trata del problema de encontrar una ley de control para un sistema dado de manera que se logre un cierto criterio de optimización . Un problema de control incluye un costo funcional que es función del estado y de las variables de control. Un control óptimo es un conjunto de ecuaciones diferenciales que describen las trayectorias de las variables de control que minimizan la función de costos. El control óptimo se puede derivar utilizando el principio máximo de Pontryagin (una condición necesaria también conocida como principio mínimo de Pontryagin o simplemente principio de Pontryagin), [8] o resolviendo la ecuación de Hamilton-Jacobi-Bellman (una condición suficiente ).

Comenzamos con un ejemplo sencillo. Considere un automóvil que viaja en línea recta por una carretera con colinas. La pregunta es, ¿cómo debe el conductor presionar el pedal del acelerador para minimizar el tiempo total de viaje? En este ejemplo, el término ley de control se refiere específicamente a la forma en que el conductor presiona el acelerador y cambia de marcha. El sistema consta tanto del automóvil como de la carretera, y el criterio de optimización es la minimización del tiempo total de viaje. Los problemas de control suelen incluir restricciones auxiliares . Por ejemplo, la cantidad de combustible disponible puede ser limitada, el pedal del acelerador no se puede pisar hasta el suelo del coche, los límites de velocidad, etc.

Una función de costo adecuada será una expresión matemática que proporcione el tiempo de viaje en función de la velocidad, consideraciones geométricas y condiciones iniciales del sistema. Las restricciones suelen ser intercambiables con la función de costos.

Otro problema de control óptimo relacionado puede ser encontrar la manera de conducir el automóvil de manera que se minimice su consumo de combustible, dado que debe completar un recorrido determinado en un tiempo que no exceda una cierta cantidad. Otro problema de control relacionado puede ser el de minimizar el costo monetario total de completar el viaje, dados los precios monetarios supuestos para el tiempo y el combustible.

Un marco más abstracto es el siguiente. [1] Minimizar el costo funcional de tiempo continuo

ecuación de estado
las restricciones del camino
condiciones del punto final
estadocontrolcosto finalcosto de funcionamientolagrangianode desigualdadminimizadora localmente

Control cuadrático lineal

Un caso especial del problema general de control óptimo no lineal presentado en la sección anterior es el problema de control óptimo lineal cuadrático (LQ) . El problema LQ se plantea de la siguiente manera. Minimizar el coste funcional cuadrático de tiempo continuo

Sujeto a las restricciones dinámicas lineales de primer orden.

Una forma particular del problema LQ que surge en muchos problemas de sistemas de control es la del regulador cuadrático lineal (LQR), donde todas las matrices (es decir, , , y ) son constantes , el tiempo inicial se establece arbitrariamente en cero y el tiempo terminal se toma en el límite (este último supuesto es lo que se conoce como horizonte infinito ). El problema LQR se plantea de la siguiente manera. Minimizar el coste funcional cuadrático de tiempo continuo de horizonte infinito

Sujeto a restricciones dinámicas lineales de primer orden invariantes en el tiempo

En el caso del horizonte finito, las matrices están restringidas en eso y son semidefinidas positivas y definidas positivas, respectivamente. Sin embargo, en el caso del horizonte infinito, las matrices y no sólo son semidefinidas positivas y definidas positivas, respectivamente, sino que también son constantes . Estas restricciones adicionales en y en el caso del horizonte infinito se aplican para garantizar que el costo funcional siga siendo positivo. Además, para garantizar que la función de costos esté acotada , se impone la restricción adicional de que el par sea controlable . Tenga en cuenta que se puede pensar que el costo funcional LQ o LQR físicamente intenta minimizar la energía de control (medida como forma cuadrática).

El problema del horizonte infinito (es decir, LQR) puede parecer demasiado restrictivo y esencialmente inútil porque supone que el operador está llevando el sistema al estado cero y, por tanto, llevando la salida del sistema a cero. De hecho, esto es correcto. Sin embargo, el problema de llevar la salida a un nivel deseado distinto de cero se puede resolver después de alcanzar la salida cero. De hecho, se puede demostrar que este problema secundario de LQR se puede resolver de una manera muy sencilla. Se ha demostrado en la teoría clásica del control óptimo que el control óptimo LQ (o LQR) tiene la forma de retroalimentación

ecuación diferencial de Riccati

Para el problema LQ de horizonte finito, la ecuación de Riccati se integra hacia atrás en el tiempo utilizando la condición de frontera terminal

Para el problema LQR de horizonte infinito, la ecuación diferencial de Riccati se reemplaza con la ecuación algebraica de Riccati (ARE) dada como

Entendiendo que el ARE surge del problema de horizonte infinito, las matrices , , y son todas constantes . Cabe señalar que, en general, existen múltiples soluciones para la ecuación algebraica de Riccati y la solución positiva definida (o positiva semidefinida) es la que se utiliza para calcular la ganancia de retroalimentación. El problema LQ (LQR) fue resuelto elegantemente por Rudolf E. Kálmán . [9]

Métodos numéricos para un control óptimo.

Los problemas de control óptimo son generalmente no lineales y, por lo tanto, generalmente no tienen soluciones analíticas (por ejemplo, como el problema de control óptimo lineal-cuadrático). Como resultado, es necesario emplear métodos numéricos para resolver problemas de control óptimos. En los primeros años del control óptimo ( c. 1950 a 1980), el enfoque preferido para resolver problemas de control óptimo era el de los métodos indirectos . En un método indirecto, se emplea el cálculo de variaciones para obtener las condiciones de optimización de primer orden. Estas condiciones dan como resultado un problema de valores en la frontera de dos puntos (o, en el caso de un problema complejo, de múltiples puntos) . Este problema de valores en la frontera en realidad tiene una estructura especial porque surge de tomar la derivada de un hamiltoniano . Por tanto, el sistema dinámico resultante es un sistema hamiltoniano de la forma [1]

hamiltoniano aumentadotransversalidad[10]

El enfoque que ha cobrado importancia en el control numérico óptimo desde la década de 1980 es el de los llamados métodos directos . En un método directo, el estado o el control, o ambos, se aproximan utilizando una aproximación de función apropiada (por ejemplo, aproximación polinómica o parametrización constante por partes). Al mismo tiempo, la función de costos se aproxima como una función de costos . Luego, los coeficientes de las aproximaciones de funciones se tratan como variables de optimización y el problema se "transcribe" a un problema de optimización no lineal de la forma:

Minimizar

Dependiendo del tipo de método directo empleado, el tamaño del problema de optimización no lineal puede ser bastante pequeño (por ejemplo, como en un método de disparo directo o cuasilinealización), moderado (por ejemplo, control óptimo pseudoespectral [11] ) o puede ser bastante grande (por ejemplo, , un método de colocación directa [12] ). En el último caso (es decir, un método de colocación), el problema de optimización no lineal puede constar literalmente de miles a decenas de miles de variables y restricciones. Dado el tamaño de muchos PNL que surgen de un método directo, puede parecer algo contrario a la intuición que resolver el problema de optimización no lineal sea más fácil que resolver el problema de valores en la frontera. Sin embargo, lo cierto es que el PNL es más fácil de resolver que el problema de valores en la frontera. La razón de la relativa facilidad de cálculo, particularmente de un método de colocación directa, es que el PNL es escaso y existen muchos programas de software bien conocidos (por ejemplo, SNOPT [13] ) para resolver PNL grandes y dispersos. Como resultado, la gama de problemas que se pueden resolver mediante métodos directos (particularmente los métodos de colocación directa que son muy populares hoy en día) es significativamente mayor que la gama de problemas que se pueden resolver mediante métodos indirectos. De hecho, los métodos directos se han vuelto tan populares hoy en día que muchas personas han escrito programas de software elaborados que emplean estos métodos. En particular, muchos de estos programas incluyen DIRCOL , [14] SOCS, [15] OTIS, [16] GESOP/ ASTOS , [17] DITAN. [18] y PyGMO/PyKEP. [19] En los últimos años, debido a la llegada del lenguaje de programación MATLAB , el software de control óptimo en MATLAB se ha vuelto más común. Ejemplos de herramientas de software MATLAB desarrolladas académicamente que implementan métodos directos incluyen RIOTS , [20] DIDO , [21] DIRECT , [22] FALCON.m, [23] y GPOPS, [24] mientras que un ejemplo de una herramienta MATLAB desarrollada en la industria es PROPT. . [25] Estas herramientas de software han aumentado significativamente las oportunidades para que las personas exploren problemas complejos de control óptimo tanto para la investigación académica como para problemas industriales. [26] Finalmente, se observa que los entornos de optimización de MATLAB de propósito general, como TOMLAB, han hecho que la codificación de problemas complejos de control óptimo sea significativamente más fácil de lo que antes era posible en lenguajes como C y FORTRAN .

Control óptimo en tiempo discreto

Los ejemplos hasta ahora han mostrado sistemas de tiempo continuo y soluciones de control. De hecho, como las soluciones de control óptimas ahora se implementan a menudo digitalmente , la teoría de control contemporánea se ocupa principalmente de sistemas y soluciones de tiempo discreto . La Teoría de Aproximaciones Consistentes [27] [28] proporciona condiciones bajo las cuales las soluciones a una serie de problemas de control óptimo discretizados cada vez más precisos convergen a la solución del problema original de tiempo continuo. No todos los métodos de discretización tienen esta propiedad, ni siquiera los que parecen obvios. [29] Por ejemplo, el uso de una rutina de tamaño de paso variable para integrar las ecuaciones dinámicas del problema puede generar un gradiente que no converge a cero (o no apunta en la dirección correcta) a medida que se acerca la solución. El método directo RIOTS se basa en la Teoría de la Aproximación Consistente.

Ejemplos

Una estrategia de solución común en muchos problemas de control óptimo es resolver el costo (a veces llamado precio sombra ) . El costate resume en un número el valor marginal de expandir o contraer la variable de estado en el siguiente turno. El valor marginal no son sólo las ganancias que se acumulan en el próximo turno, sino también las asociadas con la duración del programa. Es bueno cuando se puede resolver analíticamente, pero generalmente lo máximo que se puede hacer es describirlo lo suficientemente bien como para que la intuición pueda captar el carácter de la solución y un solucionador de ecuaciones pueda resolver numéricamente los valores.

Habiendo obtenido , el valor óptimo de turn-t para el control generalmente se puede resolver como una ecuación diferencial condicionada al conocimiento de . Nuevamente es poco frecuente, especialmente en problemas de tiempo continuo, que se obtenga explícitamente el valor del control o del estado. Por lo general, la estrategia consiste en resolver umbrales y regiones que caracterizan el control óptimo y utilizar un solucionador numérico para aislar los valores de elección reales en el tiempo.

tiempo finito

Considere el problema del propietario de una mina que debe decidir a qué ritmo extraer mineral de su mina. Poseen derechos sobre el mineral de fecha en fecha . En la fecha hay mineral en el suelo, y la cantidad de mineral que queda en el suelo, que depende del tiempo, disminuye a medida que el propietario de la mina lo extrae. El propietario de la mina extrae el mineral al costo (el costo de extracción aumenta con el cuadrado de la velocidad de extracción y la inversa de la cantidad de mineral restante) y vende el mineral a un precio constante . Cualquier mineral que quede en el suelo en ese momento no se puede vender y no tiene valor (no hay "valor de chatarra"). El propietario elige la tasa de extracción que varía con el tiempo para maximizar las ganancias durante el período de propiedad sin descuento de tiempo.

  1. Versión en tiempo discreto

    El directivo maximiza sus beneficios :

    sujeto a la ley del movimiento para la variable de estado

    Formar el hamiltoniano y diferenciar:

    Como el propietario de la mina no valora el mineral restante en ese momento ,

    Usando las ecuaciones anteriores, es fácil resolver la serie y

    y utilizando las condiciones inicial y de giro T, la serie se puede resolver explícitamente, dando .
  2. Versión de tiempo continuo

    El directivo maximiza sus beneficios :

    donde la variable estado evoluciona de la siguiente manera:

    Formar el hamiltoniano y diferenciar:

    Como el propietario de la mina no valora el mineral restante en ese momento ,

    Usando las ecuaciones anteriores, es fácil resolver las ecuaciones diferenciales que gobiernan y

    y usando las condiciones inicial y de giro T, las funciones se pueden resolver para producir

Ver también

Referencias

  1. ^ abcd Ross, Isaac (2015). "Una introducción al principio de Pontryagin en un control óptimo" . San Francisco: Editores colegiados. ISBN 978-0-9843571-0-9. OCLC  625106088.
  2. ^ Luenberger, David G. (1979). "Control óptimo". Introducción a los Sistemas Dinámicos . Nueva York: John Wiley & Sons. págs. 393–435. ISBN 0-471-02594-1.
  3. ^ Kamien, Morton I. (2013). Optimización dinámica: cálculo de variaciones y control óptimo en economía y gestión. Publicaciones de Dover. ISBN 978-1-306-39299-0. OCLC  869522905.
  4. ^ Ross, IM; Proulx, RJ; Karpenko, M. (6 de mayo de 2020). "Una teoría del control óptimo para el problema del viajante y sus variantes". arXiv : 2005.03186 [matemáticas.OC].
  5. ^ Ross, Isaac M.; Karpenko, Marcos; Proulx, Ronald J. (1 de enero de 2016). "Un cálculo no fluido para resolver algunos problemas de control teórico de grafos ** Esta investigación fue patrocinada por la Marina de los EE. UU.". IFAC-PapersOnLine . Décimo Simposio de la IFAC sobre sistemas de control no lineal NOLCOS 2016. 49 (18): 462–467. doi : 10.1016/j.ifacol.2016.10.208 . ISSN  2405-8963.
  6. ^ Sargento, RWH (2000). "Control óptimo". Revista de Matemática Computacional y Aplicada . 124 (1–2): 361–371. Código Bib : 2000JCoAM.124..361S. doi : 10.1016/S0377-0427(00)00418-0 .
  7. ^ Bryson, AE (1996). "Control óptimo: 1950 a 1985". Revista de sistemas de control IEEE . 16 (3): 26–33. doi :10.1109/37.506395.
  8. ^ Ross, IM (2009). Introducción al principio de Pontryagin en el control óptimo . Editores colegiados. ISBN 978-0-9843571-0-9.
  9. ^ Kalman, Rudolf. Un nuevo enfoque de los problemas de filtración y de predicción lineal . Transacciones de ASME, Journal of Basic Engineering, 82:34–45, 1960
  10. ^ Oberle, HJ y Grimm, W., "Programa BNDSCO-A para la solución numérica de problemas de control óptimo", Instituto de dinámica de sistemas de vuelo, DLR, Oberpfaffenhofen, 1989
  11. ^ Ross, IM ; Karpenko, M. (2012). "Una revisión del control óptimo pseudoespectral: de la teoría al vuelo" . Revisiones Anuales en Control . 36 (2): 182–197. doi :10.1016/j.arcontrol.2012.09.002.
  12. ^ Betts, JT (2010). Métodos prácticos para un control óptimo mediante programación no lineal (2ª ed.). Filadelfia, Pensilvania: SIAM Press. ISBN 978-0-89871-688-7.
  13. ^ Gill, PE, Murray, WM y Saunders, MA, Manual del usuario de SNOPT versión 7: software para programación no lineal a gran escala , Universidad de California, Informe de San Diego, 24 de abril de 2007
  14. ^ von Stryk, O., Guía del usuario de DIRCOL (versión 2.1): un método de colocación directa para la solución numérica de problemas de control óptimo , Fachgebiet Simulation und Systemoptimierung (SIM), Technische Universität Darmstadt (2000, versión de noviembre de 1999).
  15. ^ Betts, JT y Huffman, WP, Sparse Optimal Control Software, SOCS , Servicios de soporte e información de Boeing, Seattle, Washington, julio de 1997
  16. ^ Hargraves, CR; París, SW (1987). "Optimización de trayectoria directa mediante colocación y programación no lineal". Revista de orientación, control y dinámica . 10 (4): 338–342. Código bibliográfico : 1987JGCD...10..338H. doi :10.2514/3.20223.
  17. ^ Gath, PF, Well, KH, "Optimización de la trayectoria mediante una combinación de colocación y disparo múltiple directo", AIAA 2001–4047, Conferencia de orientación, navegación y control de la AIAA, Montreal, Québec, Canadá, 6 al 9 de agosto de 2001
  18. ^ Vasile M., Bernelli-Zazzera F., Fornasari N., Masarati P., "Diseño de misiones interplanetarias y lunares que combinan asistencia de gravedad y bajo empuje", Informe final del contrato de estudio ESA/ESOC nº 14126/00/ D/CS, septiembre de 2002
  19. ^ Izzo, Darío. "PyGMO y PyKEP: herramientas de código abierto para la optimización masiva paralela en astrodinámica (el caso de la optimización de trayectorias interplanetarias)". Proceder. Quinta Conferencia Internacional. Astrodinam. Herramientas y Técnicas, ICATT. 2012.
  20. RIOTS Archivado el 16 de julio de 2011 en Wayback Machine , basado en Schwartz, Adam (1996). Teoría e implementación de métodos basados ​​en la integración de Runge-Kutta para resolver problemas de control óptimo (Ph.D.). Universidad de California en Berkeley. OCLC  35140322.
  21. ^ Ross, IM, Mejoras en la caja de herramientas de control óptimo de DIDO, arXiv 2020. https://arxiv.org/abs/2004.13112
  22. ^ Williams, P., Guía del usuario de DIRECT, versión 2.00, Melbourne, Australia, 2008
  23. ^ FALCON.m, descrito en Rieck, M., Bittner, M., Grüter, B., Diepolder, J. y Piprek, P., FALCON.m - Guía del usuario , Instituto de Dinámica de Sistemas de Vuelo, Universidad Técnica de Munich , octubre de 2019
  24. ^ GPOPS Archivado el 24 de julio de 2011 en Wayback Machine , descrito en Rao, AV, Benson, DA, Huntington, GT, Francolin, C., Darby, CL y Patterson, MA, Manual del usuario de GPOPS: un paquete MATLAB para optimización dinámica Utilizando el método pseudoespectral de Gauss , Informe de la Universidad de Florida, agosto de 2008.
  25. ^ Rutquist, P. y Edvall, M. M, PROPT - Software de control óptimo MATLAB, "1260 SE Bishop Blvd Ste E, Pullman, WA 99163, EE. UU.: Tomlab Optimization, Inc.
  26. ^ IM Ross, Control óptimo computacional, tercer taller sobre cuestiones computacionales en control no lineal, 8 de octubre de 2019, Monterey, CA
  27. ^ E. Polak, Sobre el uso de aproximaciones consistentes en la solución de problemas de optimización semiinfinita y control óptimo Matemáticas. Prog. 62 págs. 385–415 (1993).
  28. ^ Ross, IM. (1 de diciembre de 2005). "Una hoja de ruta para un control óptimo: la forma correcta de desplazarse". Anales de la Academia de Ciencias de Nueva York . 1065 (1): 210–231. Código Bib : 2005NYASA1065..210R. doi : 10.1196/anales.1370.015. ISSN  0077-8923. PMID  16510411. S2CID  7625851.
  29. ^ Fahroo, Fariba; Ross, I. Michael (septiembre de 2008). "La convergencia de las costas no implica convergencia del control". Revista de orientación, control y dinámica . 31 (5): 1492-1497. Código Bib : 2008JGCD...31.1492F. doi : 10.2514/1.37331. ISSN  0731-5090. S2CID  756939.

Otras lecturas

enlaces externos