suma logarítmica de la expresión

La función LogSumExp (LSE) (también llamada RealSoftMax ^[1] o softplus multivariable ) es un máximo suave , una aproximación suave a la función máxima , utilizada principalmente por algoritmos de aprendizaje automático . ^[2] Se define como el logaritmo de la suma de los exponenciales de los argumentos:

$\mathrm {LSE} (x_{1},\dots ,x_{n})=\log \left(\exp(x_{1})+\cdots +\exp(x_{n})\right).$

Propiedades

El dominio de la función LogSumExp es , el espacio de coordenadas reales , y su codominio es , la recta real . Es una aproximación al máximo con los siguientes límites La primera desigualdad es estricta a menos que . La segunda desigualdad es estricta a menos que todos los argumentos sean iguales. (Demostración: Sea . Entonces . Aplicando el logaritmo a la desigualdad se obtiene el resultado). $\mathbb {R} ^{n}$ $\mathbb {R}$ $\max _{i}x_{i}$ $\max {\{x_{1},\dots ,x_{n}\}}\leq \mathrm {LSE} (x_{1},\dots ,x_{n})\leq \max {\{x_{1},\dots ,x_{n}\}}+\log(n).$ $n=1$ $m=\max _{i}x_{i}$ $\exp(m)\leq \sum _{i=1}^{n}\exp(x_{i})\leq n\exp(m)$

Además, podemos escalar la función para hacer que los límites sean más estrictos. Consideremos la función . Entonces (Demostración: Reemplace cada por para algunas en las desigualdades anteriores, para obtener y, ya que finalmente, al dividir por se obtiene el resultado). ${\frac {1}{t}}\mathrm {LSE} (tx_{1},\dots ,tx_{n})$ $\max {\{x_{1},\dots ,x_{n}\}}<{\frac {1}{t}}\mathrm {LSE} (tx_{1},\dots ,tx_{n})\leq \max {\{x_{1},\dots ,x_{n}\}}+{\frac {\log(n)}{t}}.$ $x_{i}$ $tx_{i}$ $t>0$ $\max {\{tx_{1},\dots ,tx_{n}\}}<\mathrm {LSE} (tx_{1},\dots ,tx_{n})\leq \max {\{tx_{1},\dots ,tx_{n}\}}+\log(n).$ $t>0$ $t\max {\{x_{1},\dots ,x_{n}\}}<\mathrm {LSE} (tx_{1},\dots ,tx_{n})\leq t\max {\{x_{1},\dots ,x_{n}\}}+\log(n).$ $t$

Además, si multiplicamos por un número negativo, por supuesto encontramos una comparación con la función: $\min$ $\min {\{x_{1},\dots ,x_{n}\}}-{\frac {\log(n)}{t}}\leq {\frac {1}{-t}}\mathrm {LSE} (-tx)<\min {\{x_{1},\dots ,x_{n}\}}.$

La función LogSumExp es convexa y es estrictamente creciente en todas partes de su dominio. ^[3] No es estrictamente convexa, ya que es afín (lineal más una constante) en las líneas diagonales y paralelas: ^[4]

\mathrm {LSE} (x_{1}+c,\dots ,x_{n}+c)=\mathrm {LSE} (x_{1},\dots ,x_{n})+c.

Aparte de esta dirección, es estrictamente convexa (la hessiana tiene rango ⁠ ⁠ $n-1$ ), por lo que, por ejemplo, restringir a un hiperplano que es transversal a la diagonal da como resultado una función estrictamente convexa. Véase , a continuación. $\mathrm {LSE} _{0}^{+}$

Escribiendo las derivadas parciales son: lo que significa que el gradiente de LogSumExp es la función softmax . $\mathbf {x} =(x_{1},\dots ,x_{n}),$ ${\frac {\partial }{\partial x_{i}}}{\mathrm {LSE} (\mathbf {x} )}={\frac {\exp x_{i}}{\sum _{j}\exp {x_{j}}}},$

El conjugado convexo de LogSumExp es la entropía negativa .

Truco log-sum-exp para cálculos en el dominio logarítmico

La función LSE se utiliza a menudo cuando los cálculos aritméticos habituales se realizan en una escala logarítmica , como en la probabilidad logarítmica . ^[5]

De manera similar a cómo las operaciones de multiplicación en escala lineal se convierten en simples sumas en escala logarítmica, una operación de suma en escala lineal se convierte en la LSE en escala logarítmica:

$\mathrm {LSE} (\log(x_{1}),...,\log(x_{n}))=\log(x_{1}+\dots +x_{n})$ Un propósito común del uso de cálculos en el dominio logarítmico es aumentar la precisión y evitar problemas de desbordamiento y subdesbordamiento cuando se representan directamente números muy pequeños o muy grandes (es decir, en un dominio lineal) utilizando números de punto flotante de precisión limitada. ^[6]

Lamentablemente, el uso directo de LSE en este caso puede volver a provocar problemas de desbordamiento o subdesbordamiento. Por lo tanto, se debe utilizar el siguiente equivalente en su lugar (especialmente cuando la precisión de la aproximación "máxima" anterior no es suficiente).

$\mathrm {LSE} (x_{1},\dots ,x_{n})=x^{*}+\log \left(\exp(x_{1}-x^{*})+\cdots +\exp(x_{n}-x^{*})\right)$ dónde $x^{*}=\max {\{x_{1},\dots ,x_{n}\}}$

Muchas bibliotecas de matemáticas como IT++ proporcionan una rutina predeterminada de LSE y utilizan esta fórmula internamente.

Una función de tipo log-sum-exp estrictamente convexa

LSE es convexa, pero no estrictamente convexa. Podemos definir una función de tipo log-sum-exp estrictamente convexa ^[7] agregando un argumento adicional establecido en cero:

$\mathrm {LSE} _{0}^{+}(x_{1},...,x_{n})=\mathrm {LSE} (0,x_{1},...,x_{n})$ Esta función es un generador de Bregman adecuado (estrictamente convexo y diferenciable ). Se la encuentra en el aprendizaje automático, por ejemplo, como el cumulante de la familia multinomial/binomial.

En el análisis tropical , esta es la suma del semianillo logarítmico .

Véase también

Referencias

^ Zhang, Aston; Lipton, Zack; Li, Mu; Smola, Alex. "Sumerjase en el aprendizaje profundo, ejercicios del capítulo 3". www.d2l.ai . Consultado el 27 de junio de 2020 .
^ Nielsen, Frank; Sun, Ke (2016). "Límites garantizados en la divergencia de Kullback-Leibler de mezclas univariadas usando desigualdades de suma logarítmica por partes". Entropía . 18 (12): 442. arXiv : 1606.05850 . Bibcode :2016Entrp..18..442N. doi : 10.3390/e18120442 . S2CID 17259055.
^ El Ghaoui, Laurent (2017). Modelos de optimización y aplicaciones.
^ "análisis convexo - Acerca de la convexidad estricta de la función log-sum-exp - Mathematics Stack Exchange". stackexchange.com .
^ McElreath, Richard. Replanteamiento estadístico. OCLC 1107423386.
^ "Cuestiones prácticas: estabilidad numérica". CS231n Redes neuronales convolucionales para reconocimiento visual .
^ Nielsen, Frank; Hadjeres, Gaetan (2018). "Geometría de la información de Monte Carlo: el caso dualmente plano". arXiv : 1803.07225 [cs.LG].