Máximo suave

En matemáticas , un máximo suave de una familia indexada x ₁ , ..., x _n de números es una aproximación suave a la función máxima , es decir, una familia paramétrica de funciones tales que para cada $α$ , la función ⁠ ⁠ es suave y la familia converge a la función máxima ⁠ ⁠ como ⁠ ⁠ . El concepto de mínimo suave se define de manera similar. En muchos casos, una sola familia se aproxima a ambos: máximo cuando el parámetro tiende a infinito positivo, mínimo cuando el parámetro tiende a infinito negativo; en símbolos, ⁠ ⁠ como ⁠ ⁠ y ⁠ ⁠ como ⁠ ⁠ . El término también se puede usar de manera vaga para una función suave específica que se comporta de manera similar a un máximo, sin ser necesariamente parte de una familia parametrizada. $\max(x_{1},\ldots ,x_{n}),$ $m_{\alpha}(x_{1},\ldots ,x_{n})$ $m_{\alpha}$ $m_{\alpha}\to \max$ $\alpha \to \infty$ $m_{\alpha}\to \max$ $\alpha \to \infty$ $m_{\alpha}\to \min$ $\alpha \to -\infty$

Ejemplos

Operador de Boltzmann

Máxima suavidad de (−x, x) en función de x para distintos valores de parámetros. Muy suave para =0,5 y más nítida para =8. ${\estilo de visualización \alpha}$ ${\estilo de visualización \alpha}$

Para valores positivos grandes del parámetro , la siguiente formulación es una aproximación suave y diferenciable de la función máxima. Para valores negativos del parámetro que son grandes en valor absoluto, se aproxima al mínimo. $\alpha >0$

{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {\sum _{i=1}^{n}x_{i}e^{\alpha x_{i}}}{\sum _{i=1}^{n}e^{\alpha x_{i}}}}

${\mathcal {S}}_{\alpha }$ tiene las siguientes propiedades:

${\mathcal {S}}_{\alpha }\to \max$ como $\alpha \to \infty$
${\mathcal {S}}_{0}$ es la media aritmética de sus entradas
${\mathcal {S}}_{\alpha }\to \min$ como $\alpha \to -\infty$

El gradiente de está estrechamente relacionado con softmax y está dado por ${\mathcal {S}}_{\alpha }$

\nabla _{x_{i}}{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {e^{\alpha x_{i}}}{\sum _{j=1}^{n}e^{\alpha x_{j}}}}[1+\alpha (x_{i}-{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n}))].

Esto hace que la función softmax sea útil para las técnicas de optimización que utilizan descenso de gradiente .

Este operador a veces se denomina operador de Boltzmann, ^[1] en honor a la distribución de Boltzmann .

suma logarítmica de la expresión

Otro máximo suave es LogSumExp :

\mathrm {LSE} _{\alpha }(x_{1},\ldots ,x_{n})={\frac {1}{\alpha }}\log \sum _{i=1}^{n}\exp \alpha x_{i}

Esto también se puede normalizar si todos son no negativos, lo que produce una función con dominio y rango : $Estilo de visualización x_{i}}$ $[0,\infty )^{n}$ $[0,\infty )$

g(x_{1},\ldots ,x_{n})=\log \left(\sum _{i=1}^{n}\exp x_{i}-(n-1)\right)

El término corrige el hecho de que al cancelar todos menos uno, el exponencial es cero, y si todos son cero. ${\estilo de visualización (n-1)}$ $\exp(0)=1$ $\log 1=0$ $Estilo de visualización x_{i}}$

Máximo suave

El operador mellowmax ^[1] se define de la siguiente manera:

\mathrm {mm} _{\alpha }(x)={\frac {1}{\alpha }}\log {\frac {1}{n}}\sum _{i=1}^{n}\exp \alpha x_{i}

Es un operador no expansivo . Como , actúa como un máximo. Como , actúa como una media aritmética. Como , actúa como un mínimo. Este operador puede verse como una instancia particular de la media cuasi-aritmética . También puede derivarse de los principios teóricos de la información como una forma de regularizar políticas con una función de costo definida por la divergencia KL. El operador se ha utilizado previamente en otras áreas, como la ingeniería energética. ^[2] $\alpha \to \infty$ $\alpha \to 0$ $\alpha \to -\infty$

p-Norma

Otro máximo suave es la p-norma :

\|(x_{1},\ldots ,x_{n})\|_{p}=\left(\sum _{i=1}^{n}|x_{i}|^{p}\right)^{\frac {1}{p}}

que converge a como . $\|(x_{1},\ldots ,x_{n})\|_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ $p\to \infty$

Una ventaja de la p-norma es que es una norma . Como tal, es invariante en escala ( homogénea ): , y satisface la desigualdad triangular . $\|(\lambda x_{1},\ldots ,\lambda x_{n})\|_{p}=|\lambda |\cdot \|(x_{1},\ldots ,x_{n})\|_{p}$

Unidad máxima lisa

El siguiente operador binario se denomina Unidad Máxima Suavizada (SMU): ^[3]

{\begin{aligned}\textstyle \max _{\varepsilon }(a,b)&={\frac {a+b+|ab|_{\varepsilon }}{2}}\\&={\frac {a+b+{\sqrt {(ab)^{2}+\varepsilon }}}{2}}\end{aligned}}

donde es un parámetro. Como , y por lo tanto . $\varepsilon \geq 0$ $\varepsilon \to 0$ $|\cdot |_{\varepsilon }\to |\cdot |$ $\textstyle \max _{\varepsilon }\to \max$

Véase también

Referencias

^ ab Asadi, Kavosh; Littman, Michael L. (2017). "Un operador Softmax alternativo para el aprendizaje por refuerzo". PMLR . 70 : 243–252. arXiv : 1612.05628 . Consultado el 6 de enero de 2023 .
^ Safak, Aysel (febrero de 1993). "Análisis estadístico de la suma de potencias de múltiples componentes log-normales correlacionados". IEEE Transactions on Vehicular Technology . 42 (1): {58–61. doi :10.1109/25.192387 . Consultado el 6 de enero de 2023 .
^ Biswas, Koushik; Kumar, Sandeep; Banerjee, Shilpak; Ashish Kumar Pandey (2021). "SMU: Función de activación suave para redes profundas utilizando la técnica de suavizado máximo". arXiv : 2111.04682 [cs.LG].

https://www.johndcook.com/soft_maximum.pdf

M. Lange, D. Zühlke, O. Holz y T. Villmann, "Aplicaciones de las normas lp y sus aproximaciones suaves para la cuantificación vectorial basada en el aprendizaje de gradientes", en Proc. ESANN , abril de 2014, págs. 271-276. (https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es2014-153.pdf)