stringtranslate.com

control estocástico

El control estocástico o control estocástico óptimo es un subcampo de la teoría del control que se ocupa de la existencia de incertidumbre ya sea en las observaciones o en el ruido que impulsa la evolución del sistema. El diseñador del sistema supone, de manera impulsada por la probabilidad bayesiana , que el ruido aleatorio con distribución de probabilidad conocida afecta la evolución y observación de las variables de estado. El control estocástico tiene como objetivo diseñar la trayectoria temporal de las variables controladas que realiza la tarea de control deseada con un coste mínimo, de alguna manera definido, a pesar de la presencia de este ruido. [1] El contexto puede ser tiempo discreto o tiempo continuo .

Equivalencia de certeza

Una formulación extremadamente bien estudiada en control estocástico es la del control gaussiano cuadrático lineal . Aquí el modelo es lineal, la función objetivo es el valor esperado de forma cuadrática y las perturbaciones son puramente aditivas. Un resultado básico para sistemas centralizados en tiempo discreto con incertidumbre sólo aditiva es la propiedad de equivalencia de certeza : [2] que la solución de control óptima en este caso es la misma que se obtendría en ausencia de perturbaciones aditivas. Esta propiedad es aplicable a todos los sistemas centralizados con ecuaciones lineales de evolución, función de costo cuadrática y ruido que ingresa al modelo solo de forma aditiva; el supuesto cuadrático permite que las leyes de control óptimas, que siguen la propiedad de certeza-equivalencia, sean funciones lineales de las observaciones de los controladores.

Cualquier desviación de los supuestos anteriores (una ecuación de estado no lineal, una función objetivo no cuadrática, ruido en los parámetros multiplicativos del modelo o descentralización del control) hace que la propiedad de equivalencia de certeza no se cumpla. Por ejemplo, el contraejemplo de Witsenhausen demostró su incapacidad para defender el control descentralizado .

Tiempo discreto

En un contexto de tiempo discreto, quien toma las decisiones observa la variable de estado, posiblemente con ruido de observación, en cada período de tiempo. El objetivo puede ser optimizar la suma de los valores esperados de una función objetivo no lineal (posiblemente cuadrática) en todos los períodos de tiempo desde el presente hasta el último período de interés, o optimizar el valor de la función objetivo a partir del período final únicamente. . En cada período se realizan nuevas observaciones y las variables de control deben ajustarse de manera óptima. Encontrar la solución óptima para el momento actual puede implicar iterar una ecuación matricial de Riccati hacia atrás en el tiempo desde el último período hasta el presente.

En el caso de tiempo discreto con incertidumbre sobre los valores de los parámetros en la matriz de transición (que dan el efecto de los valores actuales de las variables de estado en su propia evolución) y/o la matriz de respuesta de control de la ecuación de estado, pero aún con un estado lineal ecuación y función objetivo cuadrática, aún se puede obtener una ecuación de Riccati para iterar hacia atrás hasta la solución de cada período, aunque no se aplique la equivalencia de certeza. [2] cap.13 [3] El caso de tiempo discreto de una función de pérdida no cuadrática pero sólo perturbaciones aditivas también se puede manejar, aunque con más complicaciones. [4]

Ejemplo

Una especificación típica del problema de control cuadrático lineal estocástico en tiempo discreto es minimizar [2] : cap. 13,   [3] [5]

donde E 1 es el operador de valor esperado condicional a y 0 , el superíndice T indica una transpuesta de matriz y S es el horizonte temporal, sujeto a la ecuación de estado

donde y es un vector n × 1 de variables de estado observables, u es un vector k × 1 de variables de control, At es el tiempo t de realización de la matriz de transición de estado estocástica n × n , Bt es el tiempo t de realización de la matriz estocástica n × k de multiplicadores de control, y Q ( n × n ) y R ( k × k ) son matrices de costos definidas positivas simétricas conocidas. Suponemos que cada elemento de A y B está distribuido de forma conjunta, independiente e idéntica a lo largo del tiempo, por lo que las operaciones con valor esperado no tienen por qué ser condicionales en el tiempo.

La inducción hacia atrás en el tiempo se puede utilizar para obtener la solución de control óptima en cada momento, [2] : cap. 13 

con la matriz simétrica positiva de costo por recorrer X evolucionando hacia atrás en el tiempo de acuerdo con

que se conoce como ecuación de Riccati dinámica en tiempo discreto de este problema. La única información necesaria con respecto a los parámetros desconocidos en las matrices A y B es el valor esperado y la varianza de cada elemento de cada matriz y las covarianzas entre elementos de la misma matriz y entre elementos entre matrices.

La solución de control óptima no se ve afectada si los shocks aditivos iid de media cero también aparecen en la ecuación de estado, siempre que no estén correlacionados con los parámetros en las matrices A y B. Pero si están tan correlacionados, entonces la solución de control óptima para cada período contiene un vector constante aditivo adicional. Si aparece un vector constante aditivo en la ecuación de estado, entonces nuevamente la solución de control óptima para cada período contiene un vector constante aditivo adicional.

La caracterización de estado estacionario de X (si existe), relevante para el problema de horizonte infinito en el que S llega al infinito, se puede encontrar iterando la ecuación dinámica para X repetidamente hasta que converge; entonces X se caracteriza eliminando los subíndices de tiempo de su ecuación dinámica.

Tiempo continuo

Si el modelo es en tiempo continuo, el controlador conoce el estado del sistema en cada instante de tiempo. El objetivo es maximizar una integral de, por ejemplo, una función cóncava de una variable de estado en un horizonte desde el tiempo cero (el presente) hasta un tiempo terminal T , o una función cóncava de una variable de estado en alguna fecha futura T. A medida que pasa el tiempo, se realizan continuamente nuevas observaciones y las variables de control se ajustan continuamente de manera óptima.

Control predictivo del modelo estocástico

En la literatura existen dos tipos de MPC para sistemas estocásticos; Control predictivo de modelo robusto y control predictivo de modelo estocástico (SMPC). El control predictivo de modelo robusto es un método más conservador que considera el peor escenario en el procedimiento de optimización. Sin embargo, este método, similar a otros controles robustos, deteriora el desempeño general del controlador y también es aplicable sólo para sistemas con incertidumbres limitadas. El método alternativo, SMPC, considera restricciones suaves que limitan el riesgo de violación por una desigualdad probabilística. [6]

En finanzas

En un enfoque de tiempo continuo en un contexto financiero , la variable de estado en la ecuación diferencial estocástica suele ser la riqueza o el patrimonio neto, y los controles son las acciones colocadas en cada momento en los distintos activos. Dada la asignación de activos elegida en cada momento, los determinantes del cambio en la riqueza suelen ser los rendimientos estocásticos de los activos y la tasa de interés del activo libre de riesgo. El campo del control estocástico se ha desarrollado enormemente desde la década de 1970, particularmente en sus aplicaciones a las finanzas. Robert Merton utilizó el control estocástico para estudiar carteras óptimas de activos seguros y riesgosos. [7] Su trabajo y el de Black-Scholes cambiaron la naturaleza de la literatura financiera . Los tratamientos influyentes de los libros de texto de matemáticas fueron Fleming y Rishel, [8] y Fleming y Soner . [9] Stein aplicó estas técnicas a la crisis financiera de 2007-2008 . [10]

La maximización, digamos del logaritmo esperado del patrimonio neto en una fecha terminal T , está sujeta a procesos estocásticos sobre los componentes de la riqueza. [11] En este caso, en tiempo continuo la ecuación de Itô es la principal herramienta de análisis. En el caso en que la maximización sea una integral de una función cóncava de utilidad sobre un horizonte (0, T ), se utiliza programación dinámica. No existe una equivalencia de certeza como en la literatura más antigua, porque los coeficientes de las variables de control (es decir, los rendimientos recibidos por las acciones elegidas de activos) son estocásticos.

Ver también

Referencias

  1. ^ Definición de Answers.com
  2. ^ abcd Chow, Gregory P. (1976). Análisis y Control de Sistemas Económicos Dinámicos . Nueva York: Wiley. ISBN 0-471-15616-7.
  3. ^ ab Turnovsky, Stephen (1976). "Políticas de estabilización óptimas para sistemas lineales estocásticos: el caso de perturbaciones aditivas y multiplicativas correlacionadas". Revista de Estudios Económicos . 43 (1): 191–94. doi :10.2307/2296614. JSTOR  2296614.
  4. ^ Mitchell, Douglas W. (1990). "Control manejable y sensible al riesgo basado en la utilidad esperada aproximada". Modelización Económica . 7 (2): 161–164. doi :10.1016/0264-9993(90)90018-Y.
  5. ^ Turnovsky, Stephen (1974). "Las propiedades de estabilidad de las políticas económicas óptimas". Revista económica estadounidense . 64 (1): 136-148. JSTOR  1814888.
  6. ^ hashemiano; Armaou (2017). "Diseño estocástico MPC para un proceso de granulación de dos componentes". Actas IEEE : 4386–4391. arXiv : 1704.04710 . Código Bib : 2017arXiv170404710H.
  7. ^ Merton, Robert (1990). Finanzas en tiempo continuo . Blackwell.
  8. ^ Fleming, W.; Rishel, R. (1975). Control Óptimo Determinista y Estocástico. ISBN 0-387-90155-8.
  9. ^ Fleming, W.; Soner, M. (2006). Procesos Controlados de Markov y Soluciones de Viscosidad . Saltador.
  10. ^ Stein, JL (2012). Control óptimo estocástico y la crisis financiera de Estados Unidos . Springer-Ciencia.
  11. ^ Barreiro-Gómez, J.; Tembine, H. (2019). "Economía de tokens Blockchain: una perspectiva de juego de campo medio". Acceso IEEE . 7 : 64603–64613. doi : 10.1109/ACCESS.2019.2917517 . ISSN  2169-3536.

Otras lecturas