El control estocástico o control estocástico óptimo es un subcampo de la teoría de control que se ocupa de la existencia de incertidumbre, ya sea en las observaciones o en el ruido que impulsa la evolución del sistema. El diseñador del sistema supone, de manera bayesiana basada en la probabilidad, que el ruido aleatorio con distribución de probabilidad conocida afecta la evolución y la observación de las variables de estado. El control estocástico tiene como objetivo diseñar la trayectoria temporal de las variables controladas que realiza la tarea de control deseada con un coste mínimo, definido de alguna manera, a pesar de la presencia de este ruido. [1] El contexto puede ser tanto de tiempo discreto como de tiempo continuo .
Una formulación muy bien estudiada en el control estocástico es la del control gaussiano cuadrático lineal . Aquí el modelo es lineal, la función objetivo es el valor esperado de una forma cuadrática y las perturbaciones son puramente aditivas. Un resultado básico para los sistemas centralizados de tiempo discreto con solo incertidumbre aditiva es la propiedad de equivalencia de certeza : [2] que la solución de control óptima en este caso es la misma que se obtendría en ausencia de las perturbaciones aditivas. Esta propiedad es aplicable a todos los sistemas centralizados con ecuaciones lineales de evolución, función de costo cuadrática y ruido que ingresa al modelo solo de manera aditiva; el supuesto cuadrático permite que las leyes de control óptimas, que siguen la propiedad de equivalencia de certeza, sean funciones lineales de las observaciones de los controladores.
Cualquier desviación de los supuestos anteriores (una ecuación de estado no lineal, una función objetivo no cuadrática, ruido en los parámetros multiplicativos del modelo o descentralización del control) hace que la propiedad de equivalencia de certeza no se cumpla. Por ejemplo, su incapacidad para cumplirse en el caso de un control descentralizado se demostró en el contraejemplo de Witsenhausen .
En un contexto de tiempo discreto, el responsable de la toma de decisiones observa la variable de estado, posiblemente con ruido observacional, en cada período de tiempo. El objetivo puede ser optimizar la suma de los valores esperados de una función objetivo no lineal (posiblemente cuadrática) a lo largo de todos los períodos de tiempo desde el presente hasta el período final de interés, u optimizar el valor de la función objetivo solo a partir del período final. En cada período de tiempo se realizan nuevas observaciones y las variables de control deben ajustarse de manera óptima. Encontrar la solución óptima para el tiempo presente puede implicar iterar una ecuación matricial de Riccati hacia atrás en el tiempo desde el último período hasta el período actual.
En el caso de tiempo discreto con incertidumbre sobre los valores de los parámetros en la matriz de transición (dando el efecto de los valores actuales de las variables de estado sobre su propia evolución) y/o la matriz de respuesta de control de la ecuación de estado, pero aún con una ecuación de estado lineal y una función objetivo cuadrática, todavía se puede obtener una ecuación de Riccati para iterar hacia atrás hasta la solución de cada período, aunque no se aplica la equivalencia de certeza. [2] cap.13 [3] El caso de tiempo discreto de una función de pérdida no cuadrática pero solo perturbaciones aditivas también se puede manejar, aunque con más complicaciones. [4]
Una especificación típica del problema de control cuadrático lineal estocástico de tiempo discreto es minimizar [2] : cap. 13, [3] [5]
donde E 1 es el operador de valor esperado condicional a y 0 , el superíndice T indica una transposición de matriz y S es el horizonte temporal, sujeto a la ecuación de estado
donde y es un vector n × 1 de variables de estado observables, u es un vector k × 1 de variables de control, A t es la realización en el tiempo t de la matriz de transición de estado estocástica n × n , B t es la realización en el tiempo t de la matriz estocástica n × k de multiplicadores de control, y Q ( n × n ) y R ( k × k ) son matrices de costo definidas positivas simétricas conocidas. Suponemos que cada elemento de A y B se distribuye de manera independiente e idéntica a través del tiempo, por lo que las operaciones de valor esperado no necesitan estar condicionadas al tiempo.
La inducción hacia atrás en el tiempo se puede utilizar para obtener la solución de control óptima en cada momento, [2] : cap. 13
con la matriz de costo de avance definida positiva simétrica X evolucionando hacia atrás en el tiempo desde de acuerdo con
que se conoce como la ecuación de Riccati dinámica de tiempo discreto de este problema. La única información necesaria con respecto a los parámetros desconocidos en las matrices A y B es el valor esperado y la varianza de cada elemento de cada matriz y las covarianzas entre los elementos de la misma matriz y entre los elementos de las matrices.
La solución de control óptima no se ve afectada si también aparecen shocks aditivos iid de media cero en la ecuación de estado, siempre que no estén correlacionados con los parámetros en las matrices A y B. Pero si están correlacionados, entonces la solución de control óptima para cada período contiene un vector constante aditivo adicional. Si aparece un vector constante aditivo en la ecuación de estado, entonces nuevamente la solución de control óptima para cada período contiene un vector constante aditivo adicional.
La caracterización de estado estable de X (si existe), relevante para el problema del horizonte infinito en el que S tiende al infinito, se puede encontrar iterando la ecuación dinámica para X repetidamente hasta que converja; luego X se caracteriza eliminando los subíndices de tiempo de su ecuación dinámica.
Si el modelo está en tiempo continuo, el controlador conoce el estado del sistema en cada instante de tiempo. El objetivo es maximizar una integral de, por ejemplo, una función cóncava de una variable de estado sobre un horizonte desde el tiempo cero (el presente) hasta un tiempo terminal T , o una función cóncava de una variable de estado en una fecha futura T. A medida que evoluciona el tiempo, se realizan nuevas observaciones continuamente y las variables de control se ajustan continuamente de manera óptima.
En la literatura, existen dos tipos de MPC para sistemas estocásticos: control predictivo de modelos robustos y control predictivo de modelos estocásticos (SMPC). El control predictivo de modelos robustos es un método más conservador que considera el peor escenario en el procedimiento de optimización. Sin embargo, este método, al igual que otros controles robustos, deteriora el rendimiento general del controlador y también es aplicable solo para sistemas con incertidumbres limitadas. El método alternativo, SMPC, considera restricciones suaves que limitan el riesgo de violación por una desigualdad probabilística. [6]
En un enfoque de tiempo continuo en un contexto financiero , la variable de estado en la ecuación diferencial estocástica es usualmente la riqueza o el patrimonio neto, y los controles son las acciones colocadas en cada momento en los diversos activos. Dada la asignación de activos elegida en cualquier momento, los determinantes del cambio en la riqueza son usualmente los retornos estocásticos a los activos y la tasa de interés sobre el activo libre de riesgo. El campo del control estocástico se ha desarrollado mucho desde la década de 1970, particularmente en sus aplicaciones a las finanzas. Robert Merton utilizó el control estocástico para estudiar carteras óptimas de activos seguros y riesgosos. [7] Su trabajo y el de Black-Scholes cambiaron la naturaleza de la literatura financiera . Tratamientos influyentes en libros de texto matemáticos fueron los de Fleming y Rishel, [8] y los de Fleming y Soner . [9] Estas técnicas fueron aplicadas por Stein a la crisis financiera de 2007-08 . [10]
La maximización, por ejemplo del logaritmo esperado del patrimonio neto en una fecha terminal T , está sujeta a procesos estocásticos sobre los componentes de la riqueza. [11] En este caso, en tiempo continuo la ecuación de Itô es la principal herramienta de análisis. En el caso en que la maximización es una integral de una función cóncava de utilidad sobre un horizonte (0, T ), se utiliza la programación dinámica. No hay equivalencia de certeza como en la literatura anterior, porque los coeficientes de las variables de control (es decir, los rendimientos recibidos por las acciones elegidas de activos) son estocásticos.