Multiplicador de Lagrange

En optimización matemática , el método de los multiplicadores de Lagrange es una estrategia para encontrar los máximos y mínimos locales de una función sujeta a restricciones de ecuación (es decir, sujeta a la condición de que una o más ecuaciones deben satisfacerse exactamente por los valores elegidos de las variables ). ^[1] Lleva el nombre del matemático Joseph-Louis Lagrange .

Resumen y justificación

La idea básica es convertir un problema restringido en una forma tal que la prueba de la derivada de un problema sin restricciones todavía se pueda aplicar. La relación entre el gradiente de la función y los gradientes de las restricciones conduce de manera bastante natural a una reformulación del problema original, conocida como la función lagrangiana o lagrangiano. ^[2] En el caso general, el lagrangiano se define como para funciones ; se denomina multiplicador de Lagrange. ${\mathcal {L}}(x,\lambda )\equiv f(x)+\langle \lambda ,g(x)\rangle$ ${\estilo de visualización f,g}$ ${\estilo de visualización \lambda}$

En casos simples, donde el producto interno se define como el producto escalar , el Lagrangiano es ${\mathcal {L}}(x,\lambda )\equiv f(x)+\lambda \cdot g(x)$

El método puede resumirse de la siguiente manera: para encontrar el máximo o mínimo de una función sujeta a la restricción de igualdad , se encuentran los puntos estacionarios de considerados como una función de y el multiplicador de Lagrange . Esto significa que todas las derivadas parciales deben ser cero, incluida la derivada parcial con respecto a . ^[3] ${\estilo de visualización f}$ $g(x)=0$ ${\mathcal {L}}$ ${\estilo de visualización x}$ ${\estilo de visualización \lambda ~}$ ${\estilo de visualización \lambda ~}$

{\frac {\partial {\mathcal {L}}}{\partial x}}=0

{\frac {\ \parcial {\mathcal {L}}\ }{\parcial \lambda }}=0\ ;

o equivalentemente

{\frac {\parcial f(x)}{\parcial x}}+\lambda \cdot {\frac {\parcial g(x)}{\parcial x}}=0

g(x)=0~.

La solución correspondiente a la optimización restringida original es siempre un punto de silla de la función lagrangiana, ^[4]^[5] que puede identificarse entre los puntos estacionarios a partir de la definición de la matriz hessiana bordeada . ^[6]

La gran ventaja de este método es que permite resolver la optimización sin parametrización explícita en términos de las restricciones. Como resultado, el método de los multiplicadores de Lagrange se utiliza ampliamente para resolver problemas de optimización con restricciones desafiantes. Además, el método de los multiplicadores de Lagrange se generaliza mediante las condiciones de Karush-Kuhn-Tucker , que también pueden tener en cuenta restricciones de desigualdad de la forma para una constante dada . $h(\mathbf {x} )\leq c$ ${\estilo de visualización c}$

Declaración

El siguiente se conoce como el teorema del multiplicador de Lagrange. ^[7]

Sea la función objetivo, sea la función de restricciones, ambas pertenecientes a (es decir, con derivadas primeras continuas). Sea una solución óptima al siguiente problema de optimización tal que, para la matriz de derivadas parciales , : $f:\mathbb {R} ^{n}\to \mathbb {R}$ $g:\mathbb {R} ^{n}\to \mathbb {R} ^{c}$ ${\estilo de visualización C^{1}}$ $x_{\star}$ ${\Bigl [}\operatorname {D} g(x_{\star }){\Bigr ]}_{j,k}={\frac {\ \partial g_{j}\ }{\partial x_{k}}}$ $\operatorname {rango} (\operatorname {D} g(x_{\star }))=c\leq n$

${\begin{aligned}&{\text{maximizar }}f(x)\\&{\text{sujeto a: }}g(x)=0\end{aligned}}$

Entonces existe un multiplicador de Lagrange único tal que (Note que esto es algo bastante convencional donde claramente se trata como un vector de columna para asegurar que las dimensiones coincidan. Pero, también podríamos convertirlo simplemente en un vector de fila sin tomar la transposición). $\lambda _{\star }\in \mathbb {R} ^{c}$ $\operatorname {D} f(x_{\star })=\lambda _{\star }^{\mathsf {T}}\operatorname {D} g(x_{\star })~.$ $\lambda _{\star }$

El teorema del multiplicador de Lagrange establece que en cualquier máximo (o mínimo) local de la función evaluada bajo las restricciones de igualdad, si se aplica la calificación de restricción (explicada a continuación), entonces el gradiente de la función (en ese punto) se puede expresar como una combinación lineal de los gradientes de las restricciones (en ese punto), con los multiplicadores de Lagrange actuando como coeficientes . ^[8] Esto es equivalente a decir que cualquier dirección perpendicular a todos los gradientes de las restricciones también es perpendicular al gradiente de la función. O aún, decir que la derivada direccional de la función es $0$ en cada dirección factible.

Restricción única

Figura 1: La curva roja muestra la restricción $g (x, y) = c$ . Las curvas azules son contornos de $f (x, y)$ . El punto donde la restricción roja toca tangencialmente un contorno azul es el máximo de $f (x, y)$ a lo largo de la restricción, ya que $d$ $1$ $>$ $d$ $2$ .

Para el caso de una sola restricción y solo dos variables de elección (como se ejemplifica en la Figura 1), considere el problema de optimización (A veces, una constante aditiva se muestra por separado en lugar de incluirse en , en cuyo caso la restricción se escribe como en la Figura 1). Suponemos que tanto y tienen primeras derivadas parciales continuas . Introducimos una nueva variable ( ) llamada multiplicador de Lagrange (o multiplicador indeterminado de Lagrange ) y estudiamos la función de Lagrange (o lagrangiano o expresión lagrangiana ) definida por donde el término puede sumarse o restarse. Si es un máximo de para el problema restringido original y entonces existe tal que ( ) es un punto estacionario para la función de Lagrange (los puntos estacionarios son aquellos puntos donde las primeras derivadas parciales de son cero). La suposición se llama calificación de restricción. Sin embargo, no todos los puntos estacionarios producen una solución del problema original, ya que el método de los multiplicadores de Lagrange produce solo una condición necesaria para la optimalidad en problemas restringidos. ^[9]^[10]^[11]^[12]^[13]También existen condiciones suficientes para un mínimo o máximo , pero si una solución candidata particular satisface las condiciones suficientes, solo se garantiza que esa solución sea la mejor localmente , es decir, es mejor que cualquier punto cercano permisible. El óptimo global se puede encontrar comparando los valores de la función objetivo original en los puntos que satisfacen las condiciones necesarias y localmente suficientes. ${\begin{aligned}{\underset {x,y}{\text{maximize}}}\quad &f(x,y)\\{\text{subject to}}\quad &g(x,y)=0.\end{aligned}}$ $g$ $g(x,y)=c,$ $f$ $g$ $\lambda$ ${\mathcal {L}}(x,y,\lambda )=f(x,y)+\lambda \cdot g(x,y),$ $\lambda$ $f(x_{0},y_{0})$ $f(x,y)$ $\nabla g(x_{0},y_{0})\neq 0,$ $\lambda _{0}$ $x_{0},y_{0},\lambda _{0}$ ${\mathcal {L}}$ $\nabla g\neq 0$

El método de los multiplicadores de Lagrange se basa en la intuición de que, en un máximo, $f (x, y)$ no puede ser creciente en la dirección de ningún punto vecino que también tenga $g = 0$ . Si lo fuera, podríamos caminar a lo largo de $g = 0$ para llegar más alto, lo que significa que el punto de partida no era en realidad el máximo. Visto de esta manera, es un análogo exacto a comprobar si la derivada de una función sin restricciones es $0$ , es decir, estamos verificando que la derivada direccional es 0 en cualquier dirección relevante (viable).

Podemos visualizar los contornos de $f$ dados por $f (x, y) = d$ para varios valores de $d$ , y el contorno de $g$ dado por $g (x, y) = c$ .

Supongamos que caminamos a lo largo de la línea de contorno con $g = c$ . Nos interesa encontrar puntos donde $f$ casi no cambia a medida que caminamos, ya que estos puntos podrían ser máximos.

Hay dos formas en que esto podría suceder:

Podríamos tocar una curva de nivel de $f$ , ya que por definición $f$ no cambia a medida que caminamos por sus curvas de nivel. Esto significaría que las tangentes a las curvas de nivel de $f$ y $g$ son paralelas aquí.
Hemos alcanzado una parte de "nivel" de $f$ , lo que significa que $f$ no cambia en ninguna dirección.

Para comprobar la primera posibilidad (tocamos una curva de nivel de $f$ ), observe que, dado que el gradiente de una función es perpendicular a las curvas de nivel, las tangentes a las curvas de nivel de $f$ y $g$ son paralelas si y solo si los gradientes de $f$ y $g$ son paralelos. Por lo tanto, queremos puntos $(x, y)$ donde $g$ $($ $x$ $,$ $y$ $) =$ $c$ y para algún $\nabla _{x,y}f=\lambda \,\nabla _{x,y}g,$ $\lambda$

donde son los gradientes respectivos. La constante es necesaria porque, aunque los dos vectores de gradiente son paralelos, las magnitudes de los vectores de gradiente generalmente no son iguales. Esta constante se denomina multiplicador de Lagrange (en algunas convenciones va precedida de un signo menos). $\nabla _{x,y}f=\left({\frac {\partial f}{\partial x}},{\frac {\partial f}{\partial y}}\right),\qquad \nabla _{x,y}g=\left({\frac {\partial g}{\partial x}},{\frac {\partial g}{\partial y}}\right)$ $\lambda$ $\lambda$

Tenga en cuenta que este método también resuelve la segunda posibilidad, que $f$ es nivel: si $f$ es nivel, entonces su gradiente es cero y el ajuste es una solución independientemente de . $\lambda =0$ $\nabla _{x,y}g$

Para incorporar estas condiciones en una ecuación, introducimos una función auxiliar y resolvemos ${\mathcal {L}}(x,y,\lambda )\equiv f(x,y)+\lambda \cdot g(x,y)\,,$ $\nabla _{x,y,\lambda }{\mathcal {L}}(x,y,\lambda )=0~.$

Obsérvese que esto equivale a resolver tres ecuaciones con tres incógnitas. Este es el método de los multiplicadores de Lagrange.

Nótese que implica que la derivada parcial de con respecto a es $\ \nabla _{\lambda }{\mathcal {L}}(x,y,\lambda )=0\$ $\ g(x,y)=0\ ,$ ${\mathcal {L}}$ $\lambda$ $\ g(x,y)~.$

Para resumir $\nabla _{x,y,\lambda }{\mathcal {L}}(x,y,\lambda )=0\iff {\begin{cases}\nabla _{x,y}f(x,y)=-\lambda \,\nabla _{x,y}g(x,y)\\g(x,y)=0\end{cases}}$

El método se generaliza fácilmente a funciones sobre variables , lo que equivale a resolver $n$ $+ 1$ ecuaciones con $n$ $+ 1$ incógnitas. $n$ $\nabla _{x_{1},\dots ,x_{n},\lambda }{\mathcal {L}}(x_{1},\dots ,x_{n},\lambda )=0$

Los extremos restringidos de $f$ son puntos críticos del Lagrangiano , pero no son necesariamente extremos locales de (ver § Ejemplo 2 a continuación). ${\mathcal {L}}$ ${\mathcal {L}}$

Se puede reformular el lagrangiano como hamiltoniano , en cuyo caso las soluciones son mínimos locales para el hamiltoniano. Esto se hace en la teoría de control óptimo , en la forma del principio del mínimo de Pontryagin .

El hecho de que las soluciones del método de los multiplicadores de Lagrange no sean necesariamente extremos del lagrangiano también plantea dificultades para la optimización numérica. Esto se puede solucionar minimizando la magnitud del gradiente del lagrangiano, ya que estos mínimos son los mismos que los ceros de la magnitud, como se ilustra en el Ejemplo 5: Optimización numérica.

Restricciones múltiples

El método de los multiplicadores de Lagrange se puede extender para resolver problemas con múltiples restricciones utilizando un argumento similar. Consideremos un paraboloide sujeto a dos restricciones de línea que se intersecan en un único punto. Como única solución factible, este punto es obviamente un extremo restringido. Sin embargo, el conjunto de niveles de claramente no es paralelo a ninguna restricción en el punto de intersección (ver Figura 3); en cambio, es una combinación lineal de los gradientes de las dos restricciones. En el caso de múltiples restricciones, eso será lo que buscaremos en general: El método de Lagrange busca puntos no en los que el gradiente de sea necesariamente un múltiplo del gradiente de cualquier restricción individual, sino en los que sea una combinación lineal de los gradientes de todas las restricciones. $f$ $f$

Concretamente, supongamos que tenemos restricciones y caminamos a lo largo del conjunto de puntos que satisfacen Cada punto en el contorno de una función de restricción dada tiene un espacio de direcciones permitidas: el espacio de vectores perpendiculares a El conjunto de direcciones permitidas por todas las restricciones es, por lo tanto, el espacio de direcciones perpendiculares a todos los gradientes de las restricciones. Denotemos este espacio de movimientos permitidos por y denotemos el lapso de los gradientes de las restricciones por Entonces, el espacio de vectores perpendiculares a cada elemento de $M$ $g_{i}(\mathbf {x} )=0,i=1,\dots ,M\,.$ $\mathbf {x}$ $g_{i}$ $\nabla g_{i}(\mathbf {x} )\,.$ $\ A\$ $S\,.$ $A=S^{\perp }\,,$ $S\,.$

Todavía nos interesa encontrar puntos donde no cambie a medida que caminamos, ya que estos puntos podrían ser extremos (restringidos). Por lo tanto, buscamos tal que cualquier dirección permisible de movimiento que se aleje de sea perpendicular a (de lo contrario, podríamos aumentar moviéndonos a lo largo de esa dirección permisible). En otras palabras, Por lo tanto, existen escalares tales que $f$ $\mathbf {x}$ $\mathbf {x}$ $\nabla f(\mathbf {x} )$ $f$ $\nabla f(\mathbf {x} )\in A^{\perp }=S\,.$ $\lambda _{1},\lambda _{2},\ \dots ,\lambda _{M}$ $\nabla f(\mathbf {x} )=\sum _{k=1}^{M}\lambda _{k}\,\nabla g_{k}(\mathbf {x} )\quad \iff \quad \nabla f(\mathbf {x} )-\sum _{k=1}^{M}{\lambda _{k}\nabla g_{k}(\mathbf {x} )}=0~.$

Estos escalares son los multiplicadores de Lagrange. Ahora tenemos de ellos, uno para cada restricción. $M$

Como antes, introducimos una función auxiliar y resolvemos , lo que equivale a resolver ecuaciones con incógnitas. ${\mathcal {L}}\left(x_{1},\ldots ,x_{n},\lambda _{1},\ldots ,\lambda _{M}\right)=f\left(x_{1},\ldots ,x_{n}\right)-\sum \limits _{k=1}^{M}{\lambda _{k}g_{k}\left(x_{1},\ldots ,x_{n}\right)}\$ $\nabla _{x_{1},\ldots ,x_{n},\lambda _{1},\ldots ,\lambda _{M}}{\mathcal {L}}(x_{1},\ldots ,x_{n},\lambda _{1},\ldots ,\lambda _{M})=0\iff {\begin{cases}\nabla f(\mathbf {x} )-\sum _{k=1}^{M}{\lambda _{k}\,\nabla g_{k}(\mathbf {x} )}=0\\g_{1}(\mathbf {x} )=\cdots =g_{M}(\mathbf {x} )=0\end{cases}}$ $n+M$ $\ n+M\$

El supuesto de calificación de restricciones cuando hay múltiples restricciones es que los gradientes de restricciones en el punto relevante son linealmente independientes.

Formulación moderna mediante variedades diferenciables

El problema de encontrar los máximos y mínimos locales sujetos a restricciones se puede generalizar para encontrar máximos y mínimos locales en una variedad diferenciable ^[14]. En lo que sigue, no es necesario que sea un espacio euclidiano, o incluso una variedad riemanniana. Todas las apariencias del gradiente (que depende de la elección de la métrica riemanniana) se pueden reemplazar con la derivada exterior. $\ M~.$ $M$ $\ \nabla \$ $\ \operatorname {d} ~.$

Restricción única

Sea una variedad suave de dimensión Supongamos que deseamos encontrar los puntos estacionarios de una función suave cuando se restringe a la subvariedad definida por donde es una función suave para la cual $0$ es un valor regular . $\ M\$ $\ m~.$ $\ x\$ $\ f:M\to \mathbb {R} \$ $\ N\$ $\ g(x)=0\ ,$ $\ g:M\to \mathbb {R} \$

Sean y las derivadas exteriores de y . La estacionariedad para la restricción en significa De manera equivalente, el núcleo contiene En otras palabras, y son 1-formas proporcionales. Para esto es necesario y suficiente que se cumpla el siguiente sistema de ecuaciones: donde denota el producto exterior . Los puntos estacionarios son las soluciones del sistema de ecuaciones anterior más la restricción Nótese que las ecuaciones no son independientes, ya que el lado izquierdo de la ecuación pertenece a la subvariedad de que consiste en elementos descomponibles . $\ \operatorname {d} f\$ $\ \operatorname {d} g\$ $\ f\$ $\ g\$ $\ f|_{N}\$ $\ x\in N\$ $\ \operatorname {d} (f|_{N})_{x}=0~.$ $\ \ker(\operatorname {d} f_{x})\$ $\ T_{x}N=\ker(\operatorname {d} g_{x})~.$ $\ \operatorname {d} f_{x}\$ $\ \operatorname {d} g_{x}\$ $\ {\tfrac {1}{2}}m(m-1)\$ $\operatorname {d} f_{x}\wedge \operatorname {d} g_{x}=0\in \Lambda ^{2}(T_{x}^{\ast }M)$ $\ \wedge \$ $\ x\$ $\ g(x)=0~.$ $\ {\tfrac {1}{2}}m(m-1)\$ $\ \Lambda ^{2}(T_{x}^{\ast }M)\$

En esta formulación, no es necesario encontrar explícitamente el multiplicador de Lagrange, un número tal que $\ \lambda \$ $\ \operatorname {d} f_{x}=\lambda \cdot \operatorname {d} g_{x}~.$

Restricciones múltiples

Sea y como en la sección anterior respecto del caso de una única restricción. En lugar de la función descrita allí, ahora considere una función suave con funciones componentes para las cuales es un valor regular . Sea la subvariedad de definida por $\ M\$ $\ f\$ $g$ $\ G:M\to \mathbb {R} ^{p}(p>1)\ ,$ $\ g_{i}:M\to \mathbb {R} \ ,$ $0\in \mathbb {R} ^{p}$ $N$ $\ M\$ $\ G(x)=0~.$

$\ x\$ es un punto estacionario de si y solo si contiene Por conveniencia sea y donde denota la función tangente o jacobiana ( puede identificarse canónicamente con ). El subespacio tiene dimensión menor que la de , es decir y pertenece a si y solo si pertenece a la imagen de Computacionalmente hablando, la condición es que pertenece al espacio fila de la matriz de o equivalentemente al espacio columna de la matriz de (la transpuesta). Si denota el producto exterior de las columnas de la matriz de la condición estacionaria para en se convierte Una vez más, en esta formulación no es necesario encontrar explícitamente los multiplicadores de Lagrange, los números tales que $f|_{N}$ $\ \ker(\operatorname {d} f_{x})\$ $\ \ker(\operatorname {d} G_{x})~.$ $\ L_{x}=\operatorname {d} f_{x}\$ $\ K_{x}=\operatorname {d} G_{x}\ ,$ $\ \operatorname {d} G$ $\ TM\to T\mathbb {R} ^{p}~$ $\ T_{x}\mathbb {R} ^{p}$ $\ \mathbb {R} ^{p}$ $\ker(K_{x})$ $\ker(L_{x})$ $\ \dim(\ker(L_{x}))=n-1\$ $\ \dim(\ker(K_{x}))=n-p~.$ $\ker(K_{x})$ $\ \ker(L_{x})\$ $L_{x}\in T_{x}^{\ast }M$ $\ K_{x}^{\ast }:\mathbb {R} ^{p\ast }\to T_{x}^{\ast }M~.$ $L_{x}$ $\ K_{x}\ ,$ $K_{x}^{\ast }$ $\ \omega _{x}\in \Lambda ^{p}(T_{x}^{\ast }M)\$ $\ K_{x}^{\ast }\ ,$ $\ f|_{N}\$ $\ x\$ $L_{x}\wedge \omega _{x}=0\in \Lambda ^{p+1}\left(T_{x}^{\ast }M\right)$ $\ \lambda _{1},\ldots ,\lambda _{p}\$ $\ \operatorname {d} f_{x}=\sum _{i=1}^{p}\lambda _{i}\operatorname {d} (g_{i})_{x}~.$

Interpretación de los multiplicadores de Lagrange

En esta sección, modificamos las ecuaciones de restricción de la forma a la forma donde son $m$ constantes reales que se consideran argumentos adicionales de la expresión lagrangiana . $g_{i}({\bf {x}})=0$ $\ g_{i}({\bf {x}})=c_{i}\ ,$ $\ c_{i}\$ ${\mathcal {L}}$

A menudo, los multiplicadores de Lagrange tienen una interpretación como alguna cantidad de interés. Por ejemplo, parametrizando la línea de contorno de la restricción, es decir, si la expresión lagrangiana es entonces ${\begin{aligned}&{\mathcal {L}}(x_{1},x_{2},\ldots ;\lambda _{1},\lambda _{2},\ldots ;c_{1},c_{2},\ldots )\\[4pt]={}&f(x_{1},x_{2},\ldots )+\lambda _{1}(c_{1}-g_{1}(x_{1},x_{2},\ldots ))+\lambda _{2}(c_{2}-g_{2}(x_{1},x_{2},\dots ))+\cdots \end{aligned}}$ $\ {\frac {\partial {\mathcal {L}}}{\partial c_{k}}}=\lambda _{k}~.$

Por lo tanto, $λ k$ es la tasa de cambio de la cantidad que se está optimizando como una función del parámetro de restricción. Como ejemplos, en la mecánica de Lagrange las ecuaciones de movimiento se derivan al encontrar puntos estacionarios de la acción , la integral temporal de la diferencia entre la energía cinética y potencial. Por lo tanto, la fuerza sobre una partícula debido a un potencial escalar, $F = -\nabla V$ , puede interpretarse como un multiplicador de Lagrange que determina el cambio en la acción (transferencia de energía potencial a cinética) después de una variación en la trayectoria restringida de la partícula. En la teoría de control esto se formula en cambio como ecuaciones de coestado .

Además, por el teorema de la envolvente, el valor óptimo de un multiplicador de Lagrange tiene una interpretación como el efecto marginal de la constante de restricción correspondiente sobre el valor óptimo alcanzable de la función objetivo original: Si denotamos los valores en el óptimo con un asterisco ( ), entonces se puede demostrar que $\star$ ${\frac {\ \operatorname {d} f\left(\ x_{1\star }(c_{1},c_{2},\dots ),\ x_{2\star }(c_{1},c_{2},\dots ),\ \dots \ \right)\ }{\operatorname {d} c_{k}}}=\lambda _{\star k}~.$

Por ejemplo, en economía, el beneficio óptimo para un jugador se calcula sujeto a un espacio restringido de acciones, donde un multiplicador de Lagrange es el cambio en el valor óptimo de la función objetivo (beneficio) debido a la relajación de una restricción dada (por ejemplo, a través de un cambio en el ingreso); en tal contexto es el costo marginal de la restricción, y se lo conoce como el precio sombra . ^[15] $\ \lambda _{\star k}\$

Condiciones suficientes

Las condiciones suficientes para un máximo o mínimo local restringido se pueden establecer en términos de una secuencia de menores principales (determinantes de submatrices justificadas en la parte superior izquierda) de la matriz hessiana bordeada de derivadas segundas de la expresión lagrangiana. ^[6]^[16]

Ejemplos

Ejemplo 1

Supongamos que deseamos maximizar sujeto a la restricción El conjunto factible es el círculo unitario, y los conjuntos de nivel de $f$ son líneas diagonales (con pendiente −1), por lo que podemos ver gráficamente que el máximo ocurre en y que el mínimo ocurre en $\ f(x,y)=x+y\$ $\ x^{2}+y^{2}=1~.$ $\ \left({\tfrac {1}{\sqrt {2}}},{\tfrac {1}{\sqrt {2}}}\right)\ ,$ $\ \left(-{\tfrac {1}{\sqrt {2}}},-{\tfrac {1}{\sqrt {2}}}\right)~.$

Para el método de los multiplicadores de Lagrange, la restricción es por tanto la función lagrangiana, es una función que es equivalente a cuando se establece en $0$ . $g(x,y)=x^{2}+y^{2}-1=0\ ,$ ${\begin{aligned}{\mathcal {L}}(x,y,\lambda )&=f(x,y)+\lambda \cdot g(x,y)\\[4pt]&=x+y+\lambda (x^{2}+y^{2}-1)\ ,\end{aligned}}$ $\ f(x,y)\$ $\ g(x,y)\$

Ahora podemos calcular el gradiente: y por lo tanto: ${\begin{aligned}\nabla _{x,y,\lambda }{\mathcal {L}}(x,y,\lambda )&=\left({\frac {\partial {\mathcal {L}}}{\partial x}},{\frac {\partial {\mathcal {L}}}{\partial y}},{\frac {\partial {\mathcal {L}}}{\partial \lambda }}\right)\\[4pt]&=\left(1+2\lambda x,1+2\lambda y,x^{2}+y^{2}-1\right)\ \color {gray}{,}\end{aligned}}$ $\nabla _{x,y,\lambda }{\mathcal {L}}(x,y,\lambda )=0\quad \Leftrightarrow \quad {\begin{cases}1+2\lambda x=0\\1+2\lambda y=0\\x^{2}+y^{2}-1=0\end{cases}}$

Tenga en cuenta que la última ecuación es la restricción original.

Las dos primeras ecuaciones dan Al sustituir en la última ecuación tenemos: por lo que lo que implica que los puntos estacionarios de son $x=y=-{\frac {1}{2\lambda }},\qquad \lambda \neq 0~.$ ${\frac {1}{4\lambda ^{2}}}+{\frac {1}{4\lambda ^{2}}}-1=0\ ,$ $\lambda =\pm {\frac {1}{\sqrt {2\ }}}\ ,$ ${\mathcal {L}}$ $\left({\tfrac {\sqrt {2\ }}{2}},{\tfrac {\sqrt {2\ }}{2}},-{\tfrac {1}{\sqrt {2\ }}}\right),\qquad \left(-{\tfrac {\sqrt {2\ }}{2}},-{\tfrac {\sqrt {2\ }}{2}},{\tfrac {1}{\sqrt {2\ }}}\right)~.$

Evaluando la función objetivo $f$ en estos puntos obtenemos $f\left({\tfrac {\sqrt {2\ }}{2}},{\tfrac {\sqrt {2\ }}{2}}\right)={\sqrt {2\ }}\ ,\qquad f\left(-{\tfrac {\sqrt {2\ }}{2}},-{\tfrac {\sqrt {2\ }}{2}}\right)=-{\sqrt {2\ }}~.$

Por lo tanto, el máximo restringido es y el mínimo restringido es . $\ {\sqrt {2\ }}\$ $-{\sqrt {2}}$

Ejemplo 2

Ahora modificamos la función objetivo del Ejemplo 1 de modo que minimicemos en lugar de nuevamente a lo largo del círculo Ahora los conjuntos de nivel de siguen siendo líneas de pendiente −1, y los puntos en el círculo tangentes a estos conjuntos de nivel son nuevamente y Estos puntos de tangencia son máximos de $\ f(x,y)=(x+y)^{2}\$ $\ f(x,y)=x+y\ ,$ $\ g(x,y)=x^{2}+y^{2}-1=0~.$ $f$ $\ ({\sqrt {2}}/2,{\sqrt {2}}/2)\$ $\ (-{\sqrt {2}}/2,-{\sqrt {2}}/2)~.$ $\ f~.$

Por otra parte, los mínimos se dan en el nivel fijado para (ya que por su construcción no puede tomar valores negativos), en y donde las curvas de nivel de no son tangentes a la restricción. La condición que identifica correctamente los cuatro puntos como extremos; los mínimos se caracterizan en por y los máximos por $\ f=0\$ $\ f\$ $\ ({\sqrt {2}}/2,-{\sqrt {2}}/2)\$ $\ (-{\sqrt {2}}/2,{\sqrt {2}}/2)\ ,$ $\ f\$ $\ \nabla _{x,y,\lambda }\left(f(x,y)+\lambda \cdot g(x,y)\right)=0\$ $\ \lambda =0\$ $\ \lambda =2~.$

Ejemplo 3

Este ejemplo aborda cálculos más complicados, pero sigue siendo un problema de restricción única.

Supongamos que uno quiere encontrar los valores máximos de con la condición de que las coordenadas - y - se encuentren en el círculo alrededor del origen con radio Es decir, sujeto a la restricción $f(x,y)=x^{2}y$ $\ x\$ $\ y\$ $\ {\sqrt {3\ }}~.$ $g(x,y)=x^{2}+y^{2}-3=0~.$

Como solo hay una única restricción, hay un único multiplicador, digamos $\ \lambda ~.$

La restricción es idénticamente cero en el círculo de radio. Cualquier múltiplo de se puede agregar a dejando sin cambios la región de interés (en el círculo donde se satisface nuestra restricción original). $\ g(x,y)\$ $\ {\sqrt {3\ }}~.$ $\ g(x,y)\$ $\ g(x,y)\$ $\ g(x,y)\$

La aplicación del método del multiplicador de Lagrange ordinario da como resultado a partir del cual se puede calcular el gradiente: Y por lo tanto: (iii) es simplemente la restricción original. (i) implica o Si entonces por (iii) y en consecuencia de (ii). Si sustituyendo esto en (ii) se obtiene Sustituyendo esto en (iii) y resolviendo para da Por lo tanto, hay seis puntos críticos de ${\begin{aligned}{\mathcal {L}}(x,y,\lambda )&=f(x,y)+\lambda \cdot g(x,y)\\&=x^{2}y+\lambda (x^{2}+y^{2}-3)\ ,\end{aligned}}$ ${\begin{aligned}\nabla _{x,y,\lambda }{\mathcal {L}}(x,y,\lambda )&=\left({\frac {\partial {\mathcal {L}}}{\partial x}},{\frac {\partial {\mathcal {L}}}{\partial y}},{\frac {\partial {\mathcal {L}}}{\partial \lambda }}\right)\\&=\left(2xy+2\lambda x,x^{2}+2\lambda y,x^{2}+y^{2}-3\right)~.\end{aligned}}$ $\nabla _{x,y,\lambda }{\mathcal {L}}(x,y,\lambda )=0\quad \iff \quad {\begin{cases}2xy+2\lambda x=0\\x^{2}+2\lambda y=0\\x^{2}+y^{2}-3=0\end{cases}}\quad \iff \quad {\begin{cases}x(y+\lambda )=0&{\text{(i)}}\\x^{2}=-2\lambda y&{\text{(ii)}}\\x^{2}+y^{2}=3&{\text{(iii)}}\end{cases}}$ $\ x=0\$ $\ \lambda =-y~.$ $x=0$ $\ y=\pm {\sqrt {3\ }}\$ $\ \lambda =0\$ $\ \lambda =-y\ ,$ $\ x^{2}=2y^{2}~.$ $\ y\$ $\ y=\pm 1~.$ $\ {\mathcal {L}}\ :$ $({\sqrt {2\ }},1,-1);\quad (-{\sqrt {2\ }},1,-1);\quad ({\sqrt {2\ }},-1,1);\quad (-{\sqrt {2\ }},-1,1);\quad (0,{\sqrt {3\ }},0);\quad (0,-{\sqrt {3\ }},0)~.$

Evaluando el objetivo en estos puntos, se encuentra que $f(\pm {\sqrt {2\ }},1)=2;\quad f(\pm {\sqrt {2\ }},-1)=-2;\quad f(0,\pm {\sqrt {3\ }})=0~.$

Por lo tanto, la función objetivo alcanza el máximo global (sujeto a las restricciones) en y el mínimo global en El punto es un mínimo local de y es un máximo local de como puede determinarse considerando la matriz hessiana de $\ (\pm {\sqrt {2\ }},1\ )$ $\ (\pm {\sqrt {2\ }},-1)~.$ $\ (0,{\sqrt {3\ }})\$ $\ f\$ $\ (0,-{\sqrt {3\ }})\$ $\ f\ ,$ $\ {\mathcal {L}}(x,y,0)~.$

Nótese que si bien es un punto crítico de no es un extremo local de Tenemos $\ ({\sqrt {2\ }},1,-1)\$ $\ {\mathcal {L}}\ ,$ $\ {\mathcal {L}}~.$ ${\mathcal {L}}\left({\sqrt {2\ }}+\varepsilon ,1,-1+\delta \right)=2+\delta \left(\varepsilon ^{2}+\left(2{\sqrt {2\ }}\right)\varepsilon \right)~.$

Dado cualquier vecindario de uno, se puede elegir un positivo pequeño y un pequeño de cualquier signo para obtener valores mayores y menores que Esto también se puede ver en la matriz hessiana de evaluada en este punto (o de hecho en cualquiera de los puntos críticos), que es una matriz indefinida . Cada uno de los puntos críticos de es un punto de silla de ^[4] $\ ({\sqrt {2\ }},1,-1)\ ,$ $\ \varepsilon \$ $\ \delta \$ $\ {\mathcal {L}}$ $\ 2~.$ $\ {\mathcal {L}}\$ $\ {\mathcal {L}}\$ $\ {\mathcal {L}}~.$

Ejemplo 4 – Entropía

Supongamos que queremos encontrar la distribución de probabilidad discreta en los puntos con máxima entropía de información . Esto es lo mismo que decir que queremos encontrar la distribución de probabilidad menos estructurada en los puntos. En otras palabras, queremos maximizar la ecuación de entropía de Shannon : $\ \{p_{1},p_{2},\ldots ,p_{n}\}\$ $\ \{p_{1},p_{2},\cdots ,p_{n}\}~.$ $f(p_{1},p_{2},\ldots ,p_{n})=-\sum _{j=1}^{n}p_{j}\log _{2}p_{j}~.$

Para que esto sea una distribución de probabilidad, la suma de las probabilidades en cada punto debe ser igual a 1, por lo que nuestra restricción es: $\ p_{i}\$ $\ x_{i}\$ $g(p_{1},p_{2},\ldots ,p_{n})=\sum _{j=1}^{n}p_{j}=1~.$

Utilizamos multiplicadores de Lagrange para encontrar el punto de máxima entropía, en todas las distribuciones de probabilidad discretas en Requerimos que: lo que da un sistema de $n$ ecuaciones, tales que: $\ {\vec {p}}^{\,*}\ ,$ $\ {\vec {p}}\$ $\ \{x_{1},x_{2},\ldots ,x_{n}\}~.$ $\left.{\frac {\partial }{\partial {\vec {p}}}}(f+\lambda (g-1))\right|_{{\vec {p}}={\vec {p}}^{\,*}}=0\ ,$ $\ k=1,\ \ldots ,n\ ,$ $\left.{\frac {\partial }{\partial p_{k}}}\left\{-\left(\sum _{j=1}^{n}p_{j}\log _{2}p_{j}\right)+\lambda \left(\sum _{j=1}^{n}p_{j}-1\right)\right\}\right|_{p_{k}=p_{\star k}}=0~.$

Realizando la diferenciación de estas $n$ ecuaciones, obtenemos $-\left({\frac {1}{\ln 2}}+\log _{2}p_{\star k}\right)+\lambda =0~.$

Esto demuestra que todos son iguales (porque dependen solo de $λ$ ). Al usar la restricción encontramos $\ p_{\star k}\$ $\sum _{j}p_{j}=1\ ,$ $p_{\star k}={\frac {1}{n}}~.$

Por lo tanto, la distribución uniforme es la distribución con mayor entropía, entre distribuciones en $n$ puntos.

Ejemplo 5 – Optimización numérica

Los multiplicadores de Lagrange hacen que los puntos críticos se produzcan en los puntos de silla (Ejemplo 5 ).

La magnitud del gradiente se puede utilizar para forzar que los puntos críticos ocurran en mínimos locales (Ejemplo 5 ).

Los puntos críticos de los lagrangianos ocurren en puntos de silla , en lugar de máximos locales (o mínimos). ^[4]^[17] Desafortunadamente, muchas técnicas de optimización numérica, como la escalada de colinas , el descenso de gradientes , algunos de los métodos cuasi-Newton , entre otros, están diseñados para encontrar máximos locales (o mínimos) y no puntos de silla. Por esta razón, uno debe modificar la formulación para asegurar que sea un problema de minimización (por ejemplo, al extremear el cuadrado del gradiente del lagrangiano como se muestra a continuación), o bien usar una técnica de optimización que encuentre puntos estacionarios (como el método de Newton sin una línea de búsqueda de extremos ) y no necesariamente extremos.

Como ejemplo simple, considere el problema de encontrar el valor de $x$ que minimiza la restricción tal que (este problema es algo atípico porque solo hay dos valores que satisfacen esta restricción, pero es útil para fines ilustrativos porque la función sin restricciones correspondiente se puede visualizar en tres dimensiones). $\ f(x)=x^{2}\ ,$ $\ x^{2}=1~.$

Usando multiplicadores de Lagrange, este problema se puede convertir en un problema de optimización sin restricciones: ${\mathcal {L}}(x,\lambda )=x^{2}+\lambda (x^{2}-1)~.$

Los dos puntos críticos se producen en puntos de silla donde $x = 1$ y $x = -1$ .

Para resolver este problema con una técnica de optimización numérica, primero debemos transformar este problema de modo que los puntos críticos se produzcan en mínimos locales. Esto se hace calculando la magnitud del gradiente del problema de optimización sin restricciones.

Primero, calculamos la derivada parcial del problema sin restricciones con respecto a cada variable: ${\begin{aligned}&{\frac {\partial {\mathcal {L}}}{\partial x}}=2x+2x\lambda \\[5pt]&{\frac {\partial {\mathcal {L}}}{\partial \lambda }}=x^{2}-1~.\end{aligned}}$

Si la función objetivo no es fácilmente diferenciable, el diferencial con respecto a cada variable se puede aproximar como donde es un valor pequeño. ${\begin{aligned}{\frac {\ \partial {\mathcal {L}}\ }{\partial x}}\approx {\frac {{\mathcal {L}}(x+\varepsilon ,\lambda )-{\mathcal {L}}(x,\lambda )}{\varepsilon }},\\[5pt]{\frac {\ \partial {\mathcal {L}}\ }{\partial \lambda }}\approx {\frac {{\mathcal {L}}(x,\lambda +\varepsilon )-{\mathcal {L}}(x,\lambda )}{\varepsilon }},\end{aligned}}$ $\varepsilon$

A continuación, calculamos la magnitud del gradiente, que es la raíz cuadrada de la suma de los cuadrados de las derivadas parciales: ${\begin{aligned}h(x,\lambda )&={\sqrt {(2x+2x\lambda )^{2}+(x^{2}-1)^{2}\ }}\\[4pt]&\approx {\sqrt {\left({\frac {\ {\mathcal {L}}(x+\varepsilon ,\lambda )-{\mathcal {L}}(x,\lambda )\ }{\varepsilon }}\right)^{2}+\left({\frac {\ {\mathcal {L}}(x,\lambda +\varepsilon )-{\mathcal {L}}(x,\lambda )\ }{\varepsilon }}\right)^{2}\ }}~.\end{aligned}}$

(Dado que la magnitud siempre es no negativa, optimizar sobre la magnitud al cuadrado es equivalente a optimizar sobre la magnitud. Por lo tanto, la "raíz cuadrada" puede omitirse de estas ecuaciones sin ninguna diferencia esperada en los resultados de la optimización).

Los puntos críticos de $h$ ocurren en $x = 1$ y $x = -1$ , tal como en . Sin embargo, a diferencia de los puntos críticos en , los puntos críticos en $h$ ocurren en mínimos locales, por lo que se pueden utilizar técnicas de optimización numérica para encontrarlos. ${\mathcal {L}}~.$ ${\mathcal {L}}\,,$

Aplicaciones

Teoría del control

En la teoría de control óptimo , los multiplicadores de Lagrange se interpretan como variables co-estado , y los multiplicadores de Lagrange se reformulan como la minimización del hamiltoniano , en el principio mínimo de Pontryagin .

Programación no lineal

El método del multiplicador de Lagrange tiene varias generalizaciones. En la programación no lineal existen varias reglas de multiplicación, por ejemplo, la regla del multiplicador de Carathéodory-John y la regla del multiplicador convexo, para las restricciones de desigualdad. ^[18]

Sistemas de energía

Los métodos basados en multiplicadores de Lagrange tienen aplicaciones en sistemas de energía , por ejemplo en la colocación de recursos energéticos distribuidos (DER) y el deslastre de carga. ^[19]

Aprendizaje de refuerzo seguro

El método de multiplicadores de Lagrange se aplica a procesos de decisión de Markov restringidos. ^[20] Produce naturalmente algoritmos primal-duales basados en gradientes en el aprendizaje de refuerzo seguro. ^[21]

Soluciones normalizadas

Considerando los problemas de EDP con restricciones, es decir, el estudio de las propiedades de las soluciones normalizadas, los multiplicadores de Lagrange juegan un papel importante.

Véase también

Ajuste de las observaciones
Dualidad
Índice de Gittins
Condiciones de Karush-Kuhn-Tucker : generalización del método de los multiplicadores de Lagrange
Multiplicadores de Lagrange en espacios de Banach : otra generalización del método de los multiplicadores de Lagrange
Prueba del multiplicador de Lagrange en la estimación de máxima verosimilitud
Relajación lagrangiana

Referencias

^ Hoffmann, Laurence D.; Bradley, Gerald L. (2004). Cálculo para empresas, economía y ciencias sociales y biológicas (8.ª ed.). Págs. 575–588. ISBN 0-07-242432-X.
^ Beavis, Brian; Dobbs, Ian M. (1990). "Optimización estática". Optimización y teoría de la estabilidad para el análisis económico . Nueva York: Cambridge University Press. pág. 40. ISBN 0-521-33605-8.
^ Protter, Murray H .; Morrey, Charles B. Jr. (1985). Cálculo intermedio (2ª ed.). Nueva York, Nueva York: Springer. pag. 267.ISBN 0-387-96058-9.
^ abc Walsh, GR (1975). "Propiedad del punto de silla de la función lagrangiana". Métodos de optimización . Nueva York, NY: John Wiley & Sons. págs. 39–44. ISBN 0-471-91922-5.
^ Kalman, Dan (2009). "Nivelación con Lagrange: una visión alternativa de la optimización restringida". Revista de Matemáticas . 82 (3): 186–196. doi :10.1080/0025570X.2009.11953617. JSTOR 27765899. S2CID 121070192.
^ ab Silberberg, Eugenio; Suen, ala (2001). La estructura de la economía: un análisis matemático (tercera ed.). Boston: Irwin McGraw-Hill. págs. 134-141. ISBN 0-07-234352-4.
^ de la Fuente , Angel (2000). Métodos y modelos matemáticos para economistas . Cambridge: Cambridge University Press. p. 285. doi :10.1017/CBO9780511810756. ISBN 978-0-521-58512-5.
^ Luenberger, David G. (1969). Optimización por métodos de espacio vectorial . Nueva York: John Wiley & Sons. págs. 188-189.
^ Bertsekas, Dimitri P. (1999). Programación no lineal (segunda edición). Cambridge, MA: Athena Scientific. ISBN 1-886529-00-0.
^ Vapnyarskii, IB (2001) [1994], "Multiplicadores de Lagrange", Enciclopedia de Matemáticas , EMS Press.
^ Lasdon, Leon S. (2002) [1970]. Optimization Theory for Large Systems (reimpresión). Mineola, Nueva York, NY: Dover. ISBN 0-486-41999-1.Señor 1888251 .
^ Hiriart-Urruty, Jean-Baptiste; Lemaréchal, Claude (1993). "Capítulo XII: Dualidad abstracta para profesionales". Algoritmos de análisis y minimización convexos . Grundlehren der Mathematischen Wissenschaften [Principios fundamentales de las ciencias matemáticas]. vol. 306. Berlín, DE: Springer-Verlag. Págs. 136-193 (y comentarios bibliográficos págs. 334-335). ISBN 3-540-56852-2. MR 1295240. Volumen II: Teoría avanzada y métodos de haz.
^ Lemaréchal, Claude (15 a 19 de mayo de 2000). "Relajación lagrangiana". En Jünger, Michael; Naddef, Denis (eds.). Optimización combinatoria computacional: artículos de la escuela de primavera celebrada en Schloß Dagstuhl . Escuela de primavera celebrada en Schloß Dagstuhl del 15 al 19 de mayo de 2000 . Apuntes de conferencias sobre informática. vol. 2241. Berlín, DE: Springer-Verlag (publicado en 2001). págs. 112-156. doi :10.1007/3-540-45586-8_4. ISBN 3-540-42877-1.Señor 1900016.S2CID 9048698 .
^ Lafontaine, Jacques (2015). Introducción a las variedades diferenciales. Springer. pág. 70. ISBN 978-3-319-20735-3.
^ Dixit, Avinash K. (1990). "Precios sombra". Optimización en teoría económica (2.ª ed.). Nueva York: Oxford University Press. pp. 40–54. ISBN 0-19-877210-6.
^ Chiang, Alpha C. (1984). Métodos fundamentales de economía matemática (tercera edición). McGraw-Hill. pág. 386. ISBN 0-07-010813-7.
^ Heath, Michael T. (2005). Computación científica: una introducción. McGraw-Hill. pág. 203. ISBN 978-0-07-124489-3.
^ Pourciau, Bruce H. (1980). "Reglas modernas de multiplicación". American Mathematical Monthly . 87 (6): 433–452. doi :10.2307/2320250. JSTOR 2320250.
^ Gautam, Mukesh; Bhusal, Narayan; Benidris, Mohammed (2020). Un enfoque basado en la sensibilidad para el deslastre de carga adaptativo por subfrecuencia . Conferencia IEEE sobre energía y potencia de Texas (TPEC) de 2020. Instituto de Ingenieros Electrónicos y Eléctricos . págs. 1–5. doi :10.1109/TPEC48276.2020.9042569.
^ Altman, Eitan (2021). Procesos de decisión de Markov restringidos . Routledge .
^ Ding, Dongsheng; Zhang, Kaiqing; Jovanovic, Mihailo; Basar, Tamer (2020). Método primal-dual de gradiente de política natural para procesos de decisión de Markov restringidos . Avances en sistemas de procesamiento de información neuronal.

Lectura adicional

Beavis, Brian; Dobbs, Ian M. (1990). "Optimización estática". Optimización y teoría de la estabilidad para el análisis económico . Nueva York, NY: Cambridge University Press. pp. 32–72. ISBN 0-521-33605-8.
Bertsekas, Dimitri P. (1982). Optimización restringida y métodos de multiplicadores de Lagrange . Nueva York, NY: Academic Press. ISBN 0-12-093480-9.
Beveridge, Gordon SG; Schechter, Robert S. (1970). "Multiplicadores de Lagrange". Optimización: teoría y práctica . Nueva York, NY: McGraw-Hill. págs. 244–259. ISBN 0-07-005128-3.
Binger, Brian R.; Hoffman, Elizabeth (1998). "Optimización restringida". Microeconomía con cálculo (2.ª ed.). Lectura: Addison-Wesley. pp. 56–91. ISBN 0-321-01225-9.
Carter, Michael (2001). "Restricciones de igualdad". Fundamentos de economía matemática . Cambridge, MA: MIT Press. pp. 516–549. ISBN 0-262-53192-5.
Hestenes, Magnus R. (1966). "Mínimos de funciones sujetas a restricciones de igualdad". Cálculo de variaciones y teoría del control óptimo . Nueva York, NY: Wiley. págs. 29–34.
Wylie, C. Ray; Barrett, Louis C. (1995). "Los extremos de las integrales bajo restricción". Matemáticas avanzadas para ingeniería (sexta edición). Nueva York, NY: McGraw-Hill. págs. 1096–1103. ISBN 0-07-072206-4.

Enlaces externos

El Wikilibro Métodos de optimización del cálculo tiene una página sobre el tema: Multiplicadores de Lagrange

Exposición

Steuard. "Introducción conceptual". slimy.com .— además de una breve discusión de los multiplicadores de Lagrange en el cálculo de variaciones tal como se utilizan en física.
Carpenter, Kenneth H. "Multiplicadores de Lagrange para formas cuadráticas con restricciones lineales" (PDF) . Universidad Estatal de Kansas .

Texto adicional y aplicaciones interactivas

Resnik. "Explicación sencilla con un ejemplo de gobiernos que utilizan los impuestos como multiplicadores de Lagrange". umiacs.umd.edu . Universidad de Maryland .
Klein, Dan. "Multiplicadores de Lagrange sin cicatrices permanentes] Explicación con foco en la intuición" (PDF) . nlp.cs.berkeley.edu . Universidad de California, Berkeley .
Sathyanarayana, Shashi. "Representación geométrica del método de multiplicadores de Lagrange". wolfram.com ( demostración de Mathematica ). Wolfram Research . Requiere Internet Explorer / Firefox / Safari.— Proporciona una visión convincente en dos dimensiones de que, en un punto de minimización, la dirección del descenso más pronunciado debe ser perpendicular a la tangente de la curva de restricción en ese punto.
"Multiplicadores de Lagrange: dos variables". MIT Open Courseware (ocw.mit.edu) (Applet). Instituto Tecnológico de Massachusetts .
"Multiplicadores de Lagrange". MIT Open Courseware (ocw.mit.edu) (conferencia en video). Matemáticas 18-02: Cálculo multivariable. Instituto Tecnológico de Massachusetts . Otoño de 2007.
Bertsekas. "Detalles sobre los multiplicadores de Lagrange" (PDF) . athenasc.com (diapositivas / clases del curso). Programación no lineal.— Diapositivas del curso que acompañan al texto sobre optimización no lineal
Wyatt, John (7 de abril de 2004) [19 de noviembre de 2002]. "Multiplicadores de Legrange, optimización restringida y el principio de máxima entropía" (PDF) . www-mtl.mit.edu . Elec E & CS / Mech E 6.050 – Información, entropía y computación.— La idea geométrica detrás de los multiplicadores de Lagrange
"Uso de multiplicadores de Lagrange en optimización". matlab.cheme.cmu.edu (ejemplo de MATLAB). Pittsburgh, PA: Carnegie Mellon University. 24 de diciembre de 2011.