stringtranslate.com

LogSumExp

La función LogSumExp (LSE) (también llamada RealSoftMax [1] o softplus multivariable ) es un máximo suave : una aproximación suave a la función máxima , utilizada principalmente por algoritmos de aprendizaje automático . [2] Se define como el logaritmo de la suma de los exponenciales de los argumentos:

Propiedades

El dominio de la función LogSumExp es el espacio de coordenadas real y su codominio es la línea real . Es una aproximación al máximo con los siguientes límites

desigualdad

Además, podemos escalar la función para ajustar los límites. Considere la función . Entonces

Además, si multiplicamos por un número negativo, por supuesto encontramos una comparación con la función:

convexaaumenta estrictamente[3][4]

Escribir las derivadas parciales son:

gradientefunción softmax

El conjugado convexo de LogSumExp es la entropía negativa .

truco log-sum-exp para cálculos de dominio de registro

La función LSE se encuentra a menudo cuando los cálculos aritméticos habituales se realizan en una escala logarítmica , como en la probabilidad logarítmica . [5]

De manera similar a que las operaciones de multiplicación en escala lineal se convierten en simples sumas en escala logarítmica, una operación de suma en escala lineal se convierte en LSE en escala logarítmica:

[6]

Desafortunadamente, el uso de LSE directamente en este caso puede volver a causar problemas de desbordamiento/infradesbordamiento. Por lo tanto, se debe utilizar el siguiente equivalente (especialmente cuando la precisión de la aproximación 'máxima' anterior no es suficiente). Por lo tanto, muchas bibliotecas matemáticas como IT++ proporcionan una rutina predeterminada de LSE y utilizan esta fórmula internamente.

Una función de tipo log-sum-exp estrictamente convexa

LSE es convexo pero no estrictamente convexo. Podemos definir una función de tipo log-sum-exp estrictamente convexa [7] agregando un argumento adicional establecido en cero:

diferenciable

En el análisis tropical , esta es la suma en el semianillo logarítmico .

Ver también

Referencias

  1. ^ Zhang, Aston; Lipton, Zack; Li, Mu; Smola, Alex. "Sumérgete en el aprendizaje profundo, ejercicios del capítulo 3". www.d2l.ai. ​Consultado el 27 de junio de 2020 .
  2. ^ Nielsen, Frank; Sol, Ke (2016). "Límites garantizados en la divergencia Kullback-Leibler de mezclas univariadas utilizando desigualdades log-sum-exp por partes". Entropía . 18 (12): 442. arXiv : 1606.05850 . Código Bib : 2016Entrp..18..442N. doi : 10.3390/e18120442 . S2CID  17259055.
  3. ^ El Ghaoui, Laurent (2017). Modelos y Aplicaciones de Optimización.
  4. ^ "análisis convexo - Acerca de la estrictamente convexidad de la función log-sum-exp - Mathematics Stack Exchange". stackexchange.com .
  5. ^ McElreath, Richard. Repensamiento estadístico. OCLC  1107423386.
  6. ^ "Cuestiones prácticas: estabilidad numérica". CS231n Redes neuronales convolucionales para reconocimiento visual .
  7. ^ Nielsen, Frank; Hadjeres, Gaetan (2018). "Geometría de la información de Monte Carlo: el caso doblemente plano". arXiv : 1803.07225 . Código Bib : 2018arXiv180307225N. {{cite journal}}: Citar diario requiere |journal=( ayuda )