Aproximación suave a la función máxima.
La función LogSumExp (LSE) (también llamada RealSoftMax [1] o softplus multivariable ) es un máximo suave : una aproximación suave a la función máxima , utilizada principalmente por algoritmos de aprendizaje automático . [2] Se define como el logaritmo de la suma de los exponenciales de los argumentos:
![{\displaystyle \mathrm {LSE} (x_{1},\dots ,x_{n})=\log \left(\exp(x_{1})+\cdots +\exp(x_{n})\right ).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Propiedades
El dominio de la función LogSumExp es el espacio de coordenadas real y su codominio es la línea real . Es una aproximación al máximo con los siguientes límites![{\displaystyle \mathbb {R} ^{n}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbb {R} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \max _ {i}x_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \max {\{x_{1},\dots ,x_{n}\}}\leq \mathrm {LSE} (x_{1},\dots ,x_{n})\leq \max {\ {x_ {1},\puntos,x_ {n}\}}+\log(n).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
desigualdad![{\displaystyle n=1}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle m=\max _ {i}x_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \exp(m)\leq \sum _{i=1}^{n}\exp(x_{i})\leq n\exp(m)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Además, podemos escalar la función para ajustar los límites. Considere la función . Entonces ![{\displaystyle {\frac {1}{t}}\mathrm {LSE} (tx_{1},\dots,tx_{n})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \max {\{x_{1},\dots ,x_{n}\}}<{\frac {1}{t}}\mathrm {LSE} (tx_{1},\dots ,tx_{ n})\leq \max {\{x_{1},\dots ,x_{n}\}}+{\frac {\log(n)}{t}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle x_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle tx_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle t>0}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \max {\{tx_{1},\dots ,tx_{n}\}}<\mathrm {LSE} (tx_{1},\dots ,tx_{n})\leq \max {\{ tx_{1},\puntos,tx_{n}\}}+\log(n).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle t>0}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle t\max {\{x_{1},\dots ,x_{n}\}}<\mathrm {LSE} (tx_{1},\dots ,tx_{n})\leq t\max { \{x_{1},\dots ,x_{n}\}}+\log(n).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle t}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Además, si multiplicamos por un número negativo, por supuesto encontramos una comparación con la función:![{\displaystyle\min }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \min {\{x_{1},\dots ,x_{n}\}}-{\frac {\log(n)}{t}}\leq {\frac {1}{-t} }\mathrm {LSE} (-tx)<\min {\{x_{1},\dots ,x_{n}\}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
convexaaumenta estrictamente[3][4]Escribir las derivadas parciales son:![{\displaystyle \mathbf {x} =(x_{1},\dots,x_{n}),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\frac {\partial }{\partial x_{i}}}{\mathrm {LSE} (\mathbf {x} )}={\frac {\exp x_{i}}{\sum _{ j}\exp {x_{j}}}},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
gradientefunción softmaxEl conjugado convexo de LogSumExp es la entropía negativa .
truco log-sum-exp para cálculos de dominio de registro
La función LSE se encuentra a menudo cuando los cálculos aritméticos habituales se realizan en una escala logarítmica , como en la probabilidad logarítmica . [5]
De manera similar a que las operaciones de multiplicación en escala lineal se convierten en simples sumas en escala logarítmica, una operación de suma en escala lineal se convierte en LSE en escala logarítmica:
![{\displaystyle \mathrm {LSE} (\log(x_{1}),...,\log(x_{n}))=\log(x_{1}+\dots +x_{n})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
[6]Desafortunadamente, el uso de LSE directamente en este caso puede volver a causar problemas de desbordamiento/infradesbordamiento. Por lo tanto, se debe utilizar el siguiente equivalente (especialmente cuando la precisión de la aproximación 'máxima' anterior no es suficiente). Por lo tanto, muchas bibliotecas matemáticas como IT++ proporcionan una rutina predeterminada de LSE y utilizan esta fórmula internamente.
![{\displaystyle \mathrm {LSE} (x_{1},\dots ,x_{n})=x^{*}+\log \left(\exp(x_{1}-x^{*})+\ cdots +\exp(x_{n}-x^{*})\right)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle x^{*}=\max {\{x_{1},\dots,x_{n}\}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Una función de tipo log-sum-exp estrictamente convexa
LSE es convexo pero no estrictamente convexo. Podemos definir una función de tipo log-sum-exp estrictamente convexa [7] agregando un argumento adicional establecido en cero:
![{\displaystyle \mathrm {LSE} _{0}^{+}(x_{1},...,x_{n})=\mathrm {LSE} (0,x_{1},...,x_ {norte})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
diferenciableEn el análisis tropical , esta es la suma en el semianillo logarítmico .
Ver también
Referencias
- ^ Zhang, Aston; Lipton, Zack; Li, Mu; Smola, Alex. "Sumérgete en el aprendizaje profundo, ejercicios del capítulo 3". www.d2l.ai. Consultado el 27 de junio de 2020 .
- ^ Nielsen, Frank; Sol, Ke (2016). "Límites garantizados en la divergencia Kullback-Leibler de mezclas univariadas utilizando desigualdades log-sum-exp por partes". Entropía . 18 (12): 442. arXiv : 1606.05850 . Código Bib : 2016Entrp..18..442N. doi : 10.3390/e18120442 . S2CID 17259055.
- ^ El Ghaoui, Laurent (2017). Modelos y Aplicaciones de Optimización.
- ^ "análisis convexo - Acerca de la estrictamente convexidad de la función log-sum-exp - Mathematics Stack Exchange". stackexchange.com .
- ^ McElreath, Richard. Repensamiento estadístico. OCLC 1107423386.
- ^ "Cuestiones prácticas: estabilidad numérica". CS231n Redes neuronales convolucionales para reconocimiento visual .
- ^ Nielsen, Frank; Hadjeres, Gaetan (2018). "Geometría de la información de Monte Carlo: el caso doblemente plano". arXiv : 1803.07225 . Código Bib : 2018arXiv180307225N.