Al permitir restricciones de desigualdad, el enfoque KKT para la programación no lineal generaliza el método de los multiplicadores de Lagrange , que solo permite restricciones de igualdad. De manera similar al enfoque de Lagrange, el problema de maximización (minimización) restringida se reescribe como una función de Lagrange cuyo punto óptimo es un máximo o mínimo global sobre el dominio de las variables de elección y un mínimo (máximo) global sobre los multiplicadores. El teorema de Karush-Kuhn-Tucker a veces se denomina teorema del punto de silla. [1]
Las condiciones KKT recibieron originalmente el nombre de Harold W. Kuhn y Albert W. Tucker , quienes publicaron las condiciones por primera vez en 1951. [2] Los estudiosos posteriores descubrieron que las condiciones necesarias para este problema habían sido establecidas por William Karush en su tesis de maestría en 1939. [ 3] [4]
Problema de optimización no lineal
Considere el siguiente problema de optimización no lineal en forma estándar :
minimizar
sujeto a
donde es la variable de optimización elegida de un subconjunto convexo de , es la función objetivo o de utilidad , son las funciones de restricción de desigualdad y son las funciones de restricción de igualdad . Los números de desigualdades e igualdades se denotan por y respectivamente. Correspondiente al problema de optimización restringida se puede formar la función lagrangiana
dónde
El teorema de Karush-Kuhn-Tucker establece lo siguiente.
Teorema : (suficiencia) Si es un punto de silla de in , entonces es un vector óptimo para el problema de optimización anterior.
(necesidad) Supongamos que y , , son convexos y que existe tal que (es decir, se cumple la condición de Slater ). Luego, con un vector óptimo para el problema de optimización anterior, se asocia un vector que satisface tal que es un punto silla de . [5]
El sistema de ecuaciones y desigualdades correspondientes a las condiciones KKT generalmente no se resuelve directamente, excepto en los pocos casos especiales en los que se puede derivar analíticamente una solución de forma cerrada . En general, muchos algoritmos de optimización pueden interpretarse como métodos para resolver numéricamente el sistema de ecuaciones y desigualdades KKT. [7]
Condiciones necesarias
Supongamos que la función objetivo y la restricción funcionan y tienen subderivadas en un punto . Si es un óptimo local y el problema de optimización satisface algunas condiciones de regularidad (ver más abajo), entonces existen constantes y , llamadas multiplicadores KKT, tales que se cumplen los siguientes cuatro grupos de condiciones: [8]
Estacionariedad
Para minimizar :
Para maximizar :
Viabilidad primaria
Doble viabilidad
Laxitud complementaria
La última condición a veces se escribe en forma equivalente:
En el caso particular , es decir, cuando no hay restricciones de desigualdad, las condiciones KKT se convierten en condiciones de Lagrange y los multiplicadores KKT se denominan multiplicadores de Lagrange .
Prueba
Teorema : (suficiencia) Si existe una solución al problema primario, una solución al problema dual, de manera que juntas satisfagan las condiciones KKT, entonces el par de problemas tiene una fuerte dualidad y es un par de soluciones para los problemas primario y dual. .
(necesidad) Si el par de problemas tiene una fuerte dualidad, entonces para cualquier solución al problema primario y cualquier solución al problema dual, el par debe satisfacer las condiciones KKT. [9]
Prueba
En primer lugar, satisfacer las condiciones KKT equivale a que sean un equilibrio de Nash .
Fijar y variar : el equilibrio equivale a la estacionariedad primaria.
Arreglar y variar : el equilibrio equivale a la viabilidad primaria y la holgura complementaria.
Suficiencia: el par de soluciones satisface las condiciones KKT, por lo tanto es un equilibrio de Nash y, por lo tanto, cierra la brecha de dualidad.
Necesidad: cualquier par de soluciones debe cerrar la brecha de dualidad, por lo tanto deben constituir un equilibrio de Nash (ya que ninguno de los lados podría hacerlo mejor), por lo tanto satisfacen las condiciones KKT.
Interpretación: Condiciones KKT como fuerzas de restricción de equilibrio en el espacio de estados
El problema principal se puede interpretar como mover una partícula en el espacio de y someterla a tres tipos de campos de fuerza:
es un campo potencial que la partícula está minimizando. La fuerza generada por es .
son superficies de restricción unilateral. A la partícula se le permite moverse hacia adentro , pero cada vez que toca , es empujada hacia adentro.
son superficies de restricción de dos lados. A la partícula se le permite moverse sólo en la superficie .
La estacionariedad primaria establece que la "fuerza" de está exactamente equilibrada por una suma lineal de fuerzas y .
La viabilidad dual establece además que todas las fuerzas deben ser unilaterales, apuntando hacia adentro en el conjunto factible para .
La holgura complementaria establece que si , entonces la fuerza proveniente de debe ser cero, es decir , dado que la partícula no está en el límite, la fuerza de restricción unilateral no puede activarse.
Representación matricial
Las condiciones necesarias se pueden escribir con matrices jacobianas de las funciones de restricción. Definamos como y definamos como . Deja y . Entonces las condiciones necesarias se pueden escribir como:
Estacionariedad
Para maximizar :
Para minimizar :
Viabilidad primaria
Doble viabilidad
Laxitud complementaria
Condiciones de regularidad (o calificaciones de restricción)
Uno puede preguntarse si un punto minimizador del problema de optimización restringido original (suponiendo que exista) tiene que satisfacer las condiciones KKT anteriores. Esto es similar a preguntar bajo qué condiciones el minimizador de una función en un problema sin restricciones tiene que satisfacer la condición . Para el caso restringido, la situación es más complicada y se pueden establecer una variedad de condiciones de "regularidad" (cada vez más complicadas) bajo las cuales un minimizador restringido también satisface las condiciones KKT. A continuación se tabulan algunos ejemplos comunes de condiciones que garantizan esto, siendo el LICQ el más utilizado:
Se pueden mostrar las implicaciones estrictas.
LICQ ⇒ MFCQ ⇒ CPLD ⇒ QNCQ
y
LICQ ⇒ CRCQ ⇒ CPLD ⇒ QNCQ
En la práctica, se prefieren las calificaciones de restricciones más débiles, ya que se aplican a una selección más amplia de problemas.
Condiciones suficientes
En algunos casos, las condiciones necesarias también son suficientes para lograr la optimización. En general, las condiciones necesarias no son suficientes para la optimización y se requiere información adicional, como las Condiciones Suficientes de Segundo Orden (SOSC). Para funciones suaves, SOSC involucra segundas derivadas, lo que explica su nombre.
Las condiciones necesarias son suficientes para la optimización si la función objetivo de un problema de maximización es una función cóncava diferenciable , las restricciones de desigualdad son funciones convexas diferenciables , las restricciones de igualdad son funciones afines y se cumple la condición de Slater . [11] De manera similar, si la función objetivo de un problema de minimización es una función convexa diferenciable , las condiciones necesarias también son suficientes para la optimización.
Martin demostró en 1985 que la clase más amplia de funciones en las que las condiciones KKT garantizan la optimización global son las llamadas funciones invex Tipo 1 . [12] [13]
La solución encontrada en la sección anterior es un mínimo local restringido si para el lagrangiano,
entonces,
donde es un vector que satisface lo siguiente,
donde sólo se aplican aquellas restricciones de desigualdad activa correspondientes a una complementariedad estricta (es decir, donde ). La solución es un mínimo local estrictamente restringido en el caso de que la desigualdad también sea estricta.
Si , se debe utilizar la expansión de Taylor de tercer orden del lagrangiano para verificar si es un mínimo local. La minimización de es un buen contraejemplo, véase también Superficie de Peano .
Ciencias económicas
A menudo, en economía matemática, el enfoque KKT se utiliza en modelos teóricos para obtener resultados cualitativos. Por ejemplo, [14] considere una empresa que maximiza sus ingresos por ventas sujeta a una restricción mínima de beneficio. Sea la cantidad de producción producida (a elegir), los ingresos por ventas con una primera derivada positiva y con un valor cero con una producción cero, sean los costos de producción con una primera derivada positiva y con un valor no negativo con una producción cero, y sea el nivel mínimo aceptable positivo de ganancia , entonces el problema es significativo si la función de ingresos se nivela de modo que eventualmente sea menos pronunciada que la función de costos. El problema expresado en la forma de minimización dada anteriormente es
Minimizar
sujeto a
y las condiciones KKT son
Dado que violaría la restricción de beneficio mínimo, tenemos y por tanto la tercera condición implica que la primera condición se cumple con igualdad. Resolver esa igualdad da
Debido a que se dio que y son estrictamente positivas, esta desigualdad, junto con la condición de no negatividad de las garantías, es positiva y, por lo tanto, la empresa que maximiza los ingresos opera a un nivel de producción en el que el ingreso marginal es menor que el costo marginal , un resultado que es de interés porque contrasta con el comportamiento de una empresa que maximiza sus beneficios , que opera a un nivel en el que son iguales.
Función de valor
Si reconsideramos el problema de optimización como un problema de maximización con restricciones de desigualdad constantes:
La función de valor se define como
entonces el dominio de es
Dada esta definición, cada coeficiente es la tasa a la que la función de valor aumenta a medida que aumenta. Por lo tanto, si cada uno se interpreta como una restricción de recursos, los coeficientes le indican en qué medida el aumento de un recurso aumentará el valor óptimo de nuestra función . Esta interpretación es especialmente importante en economía y se utiliza, por ejemplo, en problemas de maximización de la utilidad .
Generalizaciones
Con un multiplicador adicional , que puede ser cero (siempre que ), frente al KKT las condiciones de estacionariedad se convierten en
que se denominan condiciones de Fritz John . Esta condición de optimización se cumple sin restricciones y es equivalente a la condición de optimización KKT o (no MFCQ) .
Las condiciones KKT pertenecen a una clase más amplia de condiciones necesarias de primer orden (FONC), que permiten funciones no suaves utilizando subderivadas .
^ Tabak, Daniel; Kuo, Benjamín C. (1971). Control Óptimo por Programación Matemática . Englewood Cliffs, Nueva Jersey: Prentice-Hall. págs. 19-20. ISBN 0-13-638106-5.
^ Kuhn, HW ; Tucker, AW (1951). "Programación no lineal". Actas del segundo simposio de Berkeley . Berkeley: Prensa de la Universidad de California. págs. 481–492. SEÑOR 0047303.
^ W. Karush (1939). Mínimos de funciones de varias variables con desigualdades como restricciones laterales (tesis de maestría). Departamento de Matemáticas, Univ. de Chicago, Chicago, Illinois.
^ Kjeldsen, Tinne Hoff (2000). "Un análisis histórico contextualizado del teorema de Kuhn-Tucker en programación no lineal: el impacto de la Segunda Guerra Mundial". Historia de las Matemáticas . 27 (4): 331–361. doi : 10.1006/hmat.2000.2289 . SEÑOR 1800317.
^ Walsh, GR (1975). "Propiedad del punto de silla de la función lagrangiana". Métodos de optimización . Nueva York: John Wiley & Sons. págs. 39–44. ISBN0-471-91922-5.
^ Kemp, Murray C.; Kimura, Yoshio (1978). Introducción a la Economía Matemática. Nueva York: Springer. págs. 38–44. ISBN0-387-90304-6.
^ Geoff Gordon y Ryan Tibshirani. "Condiciones Karush-Kuhn-Tucker, Optimización 10-725/36-725" (PDF) . Archivado desde el original (PDF) el 17 de junio de 2022.
^ Martín, DH (1985). "La esencia de la invexidad". J. Optim. Aplicación de la teoría . 47 (1): 65–76. doi :10.1007/BF00941316. S2CID 122906371.
^ Hanson, MA (1999). "Invexity y el teorema de Kuhn-Tucker". J. Matemáticas. Anal. Aplica . 236 (2): 594–604. doi : 10.1006/jmaa.1999.6484 .
^ Chiang, Alpha C. Métodos fundamentales de economía matemática , tercera edición, 1984, págs.
Otras lecturas
Andreani, R.; Martínez, JM; Schuverdt, ML (2005). "Sobre la relación entre la condición de dependencia lineal positiva constante y la calificación de restricción de cuasinormalidad". Revista de teoría y aplicaciones de optimización . 125 (2): 473–485. doi :10.1007/s10957-004-1861-9. S2CID 122212394.
Avriel, Mardoqueo (2003). Programación no lineal: análisis y métodos . Dover. ISBN 0-486-43227-0.
Boltyanski, V.; Martini, H.; Soltán, V. (1998). "El teorema de Kuhn-Tucker". Métodos geométricos y problemas de optimización . Nueva York: Springer. págs. 78–92. ISBN 0-7923-5454-0.
Boyd, S.; Vandenberghe, L. (2004). «Condiciones de Optimidad» (PDF) . Optimizacion convexa . Prensa de la Universidad de Cambridge. págs. 241-249. ISBN 0-521-83378-7.
Kemp, Murray C.; Kimura, Yoshio (1978). Introducción a la Economía Matemática. Nueva York: Springer. págs. 38–73. ISBN 0-387-90304-6.
Rau, Nicolás (1981). "Multiplicadores de Lagrange". Matrices y Programación Matemática . Londres: Macmillan. págs. 156-174. ISBN 0-333-27768-6.
Nocedal, J.; Wright, SJ (2006). Optimización numérica . Nueva York: Springer. ISBN 978-0-387-30303-1.
Sundaram, Rangarajan K. (1996). "Restricciones de desigualdad y el teorema de Kuhn y Tucker". Un primer curso en teoría de la optimización . Nueva York: Cambridge University Press. págs. 145-171. ISBN 0-521-49770-1.
enlaces externos
Condiciones de Karush-Kuhn-Tucker con derivación y ejemplos