Función de valor

La función de valor de un problema de optimización proporciona el valor alcanzado por la función de pérdida de una solución, siempre y cuando solo dependa de los parámetros del problema.

[1]​[2]​ En un sistema dinámico controlado, la función de valor representa el resultado óptimo del sistema en el intervalo [t, t1] cuando se inicia la variable de estado en el momento t x(t)=x.

[3]​ Si la función objetivo representa algún costo que debe minimizarse, la función de valor puede interpretarse como el costo para terminar el programa óptimo y, por lo tanto, se la denomina "función de costo pendiente".

[4]​[5]​ En un contexto económico, donde la función objetivo generalmente representa la utilidad obtenida, la función de valor es conceptualmente equivalente a la función de utilidad indirecta.

[6]​[7]​ En un problema de control óptimo, la función de valor se define como el elemento supremo e ínfimo de la función objetivo tomada sobre el conjunto de controles admisibles.

, un problema típico de control óptimo es: sujeto a con variable de estado inicial

debe maximizarse sobre todos los controles admisibles

es una función medible de Lebesgue dependiente de

sobre algún conjunto arbitrario prescrito en

La función de valor se define entonces como:

τ + ϕ ( x (

{\displaystyle V(t,x(t))=\max _{u\in U}\int _{t}^{t_{1}}I(\tau ,x(\tau ),u(\tau ))\,\mathrm {d} \tau +\phi (x(t_{1}))}

Si el par óptimo de trayectorias de control y estado es

que proporciona el control óptimo

en función del estado actual

se denomina política de control de retroalimentación,[4]​ o simplemente función de política.

[9]​ El principio de optimización de Bellman establece aproximadamente que cualquier política óptima en el momento

tratado como condición inicial "nueva" debe ser óptima para el problema restante.

Si la función de valor resulta ser continuamente diferenciable,[10]​ esto da lugar a una ecuación en derivadas parciales importante, conocida como ecuación de Hamilton-Jacobi-Bellman donde el maximizador en el lado derecho de la ecuación también se puede reescribir como un hamiltoniano,

t , x , u , λ

( t , x , u ) + λ ( t ) f ( t , x , u )

{\displaystyle H\left(t,x,u,\lambda \right)=I(t,x,u)+\lambda (t)f(t,x,u)}

∂ x = λ ( t )

desempeñando el papel de las variables de costo.

[11]​ Dada esta definición, se tiene además que

{\displaystyle \mathrm {d} \lambda (t)/\mathrm {d} t=\partial ^{2}V(t,x)/\partial x\partial t+\partial ^{2}V(t,x)/\partial x^{2}\cdot f(x)}

, y después de diferenciar ambos lados de la ecuación de Hamilton-Jacobi-Bellman con respecto a

, que, tras reemplazar los términos apropiados, recupera la ecuación de costes donde

se expresa según la notación de Newton de la derivada con respecto al tiempo.

[13]​ En un control óptimo aproximado de bucle cerrado en línea, la función de valor también es una función de Liapunov que establece la estabilidad asintótica global del sistema de bucle cerrado.