LogSumExp

La función LogSumExp (LSE) (también llamada RealSoftMax ^[1] o softplus multivariable ) es un máximo suave : una aproximación suave a la función máxima , utilizada principalmente por algoritmos de aprendizaje automático . ^[2] Se define como el logaritmo de la suma de los exponenciales de los argumentos:

\mathrm {LSE} (x_{1},\dots ,x_{n})=\log \left(\exp(x_{1})+\cdots +\exp(x_{n})\right ).

Propiedades

El dominio de la función LogSumExp es el espacio de coordenadas real y su codominio es la línea real . Es una aproximación al máximo con los siguientes límites $\mathbb {R} ^{n}$ $\mathbb {R}$ $\max _ {i}x_ {i}$

\max {\{x_{1},\dots ,x_{n}\}}\leq \mathrm {LSE} (x_{1},\dots ,x_{n})\leq \max {\ {x_ {1},\puntos,x_ {n}\}}+\log(n).

desigualdad

n=1

m=\max _{i}x_{i}

\exp(m)\leq \sum _{i=1}^{n}\exp(x_{i})\leq n\exp(m)

Además, podemos escalar la función para ajustar los límites. Considere la función . Entonces ${\frac {1}{t}}\mathrm {LSE} (tx_{1},\dots ,tx_{n})$

\max {\{x_{1},\dots ,x_{n}\}}<{\frac {1}{t}}\mathrm {LSE} (tx_{1},\dots ,tx_{n})\leq \max {\{x_{1},\dots ,x_{n}\}}+{\frac {\log(n)}{t}}.

x_{i}

tx_{i}

t>0

\max {\{tx_{1},\dots ,tx_{n}\}}<\mathrm {LSE} (tx_{1},\dots ,tx_{n})\leq \max {\{tx_{1},\dots ,tx_{n}\}}+\log(n).

t>0

t\max {\{x_{1},\dots ,x_{n}\}}<\mathrm {LSE} (tx_{1},\dots ,tx_{n})\leq t\max {\{x_{1},\dots ,x_{n}\}}+\log(n).

t

Además, si multiplicamos por un número negativo, por supuesto encontramos una comparación con la función: $\min$

\min {\{x_{1},\dots ,x_{n}\}}-{\frac {\log(n)}{t}}\leq {\frac {1}{-t}}\mathrm {LSE} (-tx)<\min {\{x_{1},\dots ,x_{n}\}}.

convexa aumenta estrictamente^[3]^[4]

Escribir las derivadas parciales son: $\mathbf {x} =(x_{1},\dots ,x_{n}),$

{\frac {\partial }{\partial x_{i}}}{\mathrm {LSE} (\mathbf {x} )}={\frac {\exp x_{i}}{\sum _{j}\exp {x_{j}}}},

gradiente función softmax

El conjugado convexo de LogSumExp es la entropía negativa .

truco log-sum-exp para cálculos de dominio de registro

La función LSE se encuentra a menudo cuando los cálculos aritméticos habituales se realizan en una escala logarítmica , como en la probabilidad logarítmica . ^[5]

De manera similar a que las operaciones de multiplicación en escala lineal se convierten en simples sumas en escala logarítmica, una operación de suma en escala lineal se convierte en LSE en escala logarítmica:

\mathrm {LSE} (\log(x_{1}),...,\log(x_{n}))=\log(x_{1}+\dots +x_{n})

^[6]

Desafortunadamente, el uso de LSE directamente en este caso puede volver a causar problemas de desbordamiento/infradesbordamiento. Por lo tanto, se debe utilizar el siguiente equivalente (especialmente cuando la precisión de la aproximación 'máxima' anterior no es suficiente). Por lo tanto, muchas bibliotecas matemáticas como IT++ proporcionan una rutina predeterminada de LSE y utilizan esta fórmula internamente.

\mathrm {LSE} (x_{1},\dots ,x_{n})=x^{*}+\log \left(\exp(x_{1}-x^{*})+\cdots +\exp(x_{n}-x^{*})\right)

x^{*}=\max {\{x_{1},\dots ,x_{n}\}}

Una función de tipo log-sum-exp estrictamente convexa

LSE es convexo pero no estrictamente convexo. Podemos definir una función de tipo log-sum-exp estrictamente convexa ^[7] agregando un argumento adicional establecido en cero:

\mathrm {LSE} _{0}^{+}(x_{1},...,x_{n})=\mathrm {LSE} (0,x_{1},...,x_{n})

diferenciable

En el análisis tropical , esta es la suma en el semianillo logarítmico .

Ver también

Referencias

^ Zhang, Aston; Lipton, Zack; Li, Mu; Smola, Alex. "Sumérgete en el aprendizaje profundo, ejercicios del capítulo 3". www.d2l.ai. Consultado el 27 de junio de 2020 .
^ Nielsen, Frank; Sol, Ke (2016). "Límites garantizados en la divergencia Kullback-Leibler de mezclas univariadas utilizando desigualdades log-sum-exp por partes". Entropía . 18 (12): 442. arXiv : 1606.05850 . Código Bib : 2016Entrp..18..442N. doi : 10.3390/e18120442 . S2CID 17259055.
^ El Ghaoui, Laurent (2017). Modelos y Aplicaciones de Optimización.
^ "análisis convexo - Acerca de la estrictamente convexidad de la función log-sum-exp - Mathematics Stack Exchange". stackexchange.com .
^ McElreath, Richard. Repensamiento estadístico. OCLC 1107423386.
^ "Cuestiones prácticas: estabilidad numérica". CS231n Redes neuronales convolucionales para reconocimiento visual .
^ Nielsen, Frank; Hadjeres, Gaetan (2018). "Geometría de la información de Monte Carlo: el caso doblemente plano". arXiv : 1803.07225 . Código Bib : 2018arXiv180307225N. {{cite journal}}: Citar diario requiere |journal=( ayuda )