Descenso del espejo

En matemáticas, el descenso de espejo es un algoritmo de optimización iterativo para encontrar un mínimo local de una función diferenciable .

Generaliza algoritmos como el descenso de gradiente y los pesos multiplicativos .

Historia

El descenso por espejo fue propuesto originalmente por Nemirovski y Yudin en 1983. ^[1]

Motivación

En el descenso de gradiente con la secuencia de tasas de aprendizaje aplicadas a una función diferenciable , se comienza con una estimación de un mínimo local de y se considera la secuencia tal que $(\eta _ {n})_ {n\geq 0}$ ${\estilo de visualización F}$ $\mathbf {x}_{0}$ ${\estilo de visualización F,}$ $\mathbf {x}_{0},\mathbf {x}_{1},\mathbf {x}_{2},\ldots$

\mathbf {x} _{n+1}=\mathbf {x} _{n}-\eta _{n}\nabla F(\mathbf {x} _{n}),\ n\geq 0.

Esto se puede reformular señalando que

\mathbf {x} _{n+1}=\arg \min _{\mathbf {x} }\left(F(\mathbf {x} _{n})+\nabla F(\mathbf { x} _{n})^{T}(\mathbf {x} -\mathbf {x} _{n})+{\frac {1}{2\eta _{n}}}\|\mathbf { x} -\mathbf {x} _{n}\|^{2}\right)

En otras palabras, minimiza la aproximación de primer orden a at con el término de proximidad agregado . $\mathbf {x} _ {n+1}$ ${\estilo de visualización F}$ $\mathbf {x} _ {n}$ $\|\mathbf {x} -\mathbf {x} _{n}\|^{2}$

Este término de distancia euclidiana al cuadrado es un ejemplo particular de una distancia de Bregman . El uso de otras distancias de Bregman dará como resultado otros algoritmos como Hedge , que pueden ser más adecuados para la optimización en geometrías particulares. ^[2]^[3]

Formulación

Se nos da una función convexa para optimizar sobre un conjunto convexo , y se nos da una norma en . ${\estilo de visualización f}$ $K\subconjunto \mathbb {R} ^{n}$ ${\estilo de visualización \|\cdot \|}$ $\mathbb {R} ^{n}$

También se nos da una función convexa diferenciable , fuertemente convexa con respecto a la norma dada. Esta se llama función generadora de distancia y su gradiente se conoce como mapa especular . $h\colon \mathbb {R} ^{n}\to \mathbb {R}$ ${\estilo de visualización \alpha}$ $\nabla h\colon \mathbb {R} ^{n}\to \mathbb {R} ^{n}$

A partir del valor inicial , en cada iteración de Mirror Descent: $x_{0}\en K$

Mapa del espacio dual: $\theta_{t}\leftarrow \nabla h(x_{t})$
Actualización en el espacio dual mediante un paso de gradiente: $\theta_{t+1}\leftarrow \theta_{t}-\eta_{t}\nabla f(x_{t})$
Regrese al espacio primordial: $x'_{t+1}\leftarrow (\nabla h)^{-1}(\theta _{t+1})$
Proyecto de regreso a la región factible : , donde es la divergencia de Bregman . ${\estilo de visualización K}$ $x_{t+1}\leftarrow \mathrm {arg} \min _{x\in K}D_{h}(x||x'_{t+1})$ $Estilo de visualización D_{h}}$

Extensiones

El descenso de espejo en el entorno de optimización en línea se conoce como Descenso de Espejo en Línea (OMD). ^[4]

Véase también

Referencias

^ Arkadi Nemirovsky y David Yudin. Complejidad de problemas y eficiencia de métodos en optimización. John Wiley & Sons, 1983
^ Nemirovski, Arkadi (2012) Tutorial: algoritmos de descenso de espejo para optimización convexa determinista y estocástica a gran escala. https://www2.isye.gatech.edu/~nemirovs/COLT2012Tut.pdf
^ "Algoritmo de descenso de espejo". tlienart.github.io . Consultado el 10 de julio de 2022 .
^ Fang, Huang; Harvey, Nicholas JA; Portella, Victor S.; Friedlander, Michael P. (3 de septiembre de 2021). "Descenso de espejo en línea y promedio dual: manteniendo el ritmo en el caso dinámico". arXiv : 2006.02585 [cs.LG].