Es una aproximación suave (de hecho, una función analítica ) a la función de rampa , que se conoce como rectificador o ReLU (unidad lineal rectificada) en el aprendizaje automático. Para valores negativos grandes es , por lo que está justo por encima de 0, mientras que para valores positivos grandes es , por lo que está justo por encima de .
Los nombres softplus [1] [2] y SmoothReLU [3] se utilizan en el aprendizaje automático. El nombre "softplus" (2000), por analogía con el anterior softmax (1989), se debe presumiblemente a que es una aproximación suave ( soft ) de la parte positiva de x , que a veces se denota con un superíndice más , .
La generalización multivariable del softplus de una sola variable es LogSumExp con el primer argumento establecido en cero:
La función LogSumExp es
y su gradiente es el softmax ; el softmax con el primer argumento establecido en cero es la generalización multivariable de la función logística. Tanto LogSumExp como softmax se utilizan en el aprendizaje automático.
Conjugado convexo
El conjugado convexo (en concreto, la transformada de Legendre ) de la función softplus es la entropía binaria negativa (con base e ). Esto se debe a que (siguiendo la definición de la transformada de Legendre: las derivadas son funciones inversas) la derivada de softplus es la función logística, cuya función inversa es la logit , que es la derivada de la entropía binaria negativa.
Softplus puede interpretarse como pérdida logística (como un número positivo), por lo que por dualidad , minimizar la pérdida logística corresponde a maximizar la entropía. Esto justifica el principio de máxima entropía como minimización de pérdidas.
Formas alternativas
Esta función se puede aproximar como:
Al realizar el cambio de variables , esto equivale a
Se puede incluir un parámetro de nitidez :
Referencias
^ Dugas, Charles; Bengio, Yoshua; Bélisle, François; Nadeau, Claude; Garcia, René (2000). "Incorporación de conocimiento funcional de segundo orden para una mejor fijación de precios de opciones" (PDF) . Actas de la 13.ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural (NIPS'00) . MIT Press: 451–457. Dado que la sigmoidea h tiene una primera derivada positiva, su primitiva, que llamamos softplus, es convexa.
^ Xavier Glorot; Antoine Bordes; Yoshua Bengio (2011). Redes neuronales rectificadoras dispersas profundas (PDF) . AISTATS. Funciones de activación rectificadoras y softplus. La segunda es una versión suave de la primera.
^ "Capa avanzada de la unidad lineal de rectificador suave (SmoothReLU)". Guía para desarrolladores de la biblioteca de aceleración de análisis de datos de Intel . 2017 . Consultado el 4 de diciembre de 2018 .