Función swish

La función swish es una familia de funciones matemáticas definidas de la siguiente manera:

\operatorname {swish} _{\beta }(x)=x\operatorname {sigmoide} (\beta x)={\frac {x}{1+e^{-\beta x}}}.

^[1]

donde puede ser constante (normalmente establecido en 1) o entrenable . ${\estilo de visualización \beta}$

La familia swish fue diseñada para interpolar suavemente entre una función lineal y la función ReLU.

Al considerar valores positivos, Swish es un caso particular de función de contracción sigmoidea doblemente parametrizada definida en ^[2]^{: ecuación 3.} Las variantes de la función swish incluyen Mish . ^[3]

Valores especiales

Para β = 0, la función es lineal: f( x ) = x /2.

Para β = 1, la función es la Unidad Lineal Sigmoidea (SiLU).

Con β → ∞, la función converge a ReLU .

De esta forma, la familia swish interpola suavemente entre una función lineal y la función ReLU. ^[1]

Dado que todas las instancias de swish tienen la misma forma que la predeterminada , ampliada por . Por lo general, se establece . Cuando es entrenable, esta restricción se puede aplicar mediante , donde es entrenable. $\operatorname {swish} _{\beta }(x)=\operatorname {swish} _{1}(\beta x)/\beta$ $\operatorname {swish} _{1}$ ${\estilo de visualización \beta}$ $\beta >0$ ${\estilo de visualización \beta}$ $\beta =e^{b}$ ${\estilo de visualización b}$

$\operatorname {swish} _{1}(x)={\frac {x}{2}}+{\frac {x^{2}}{4}}-{\frac {x^{4}}{48}}+{\frac {x^{6}}{480}}+O\left(x^{8}\right)$

${\begin{aligned}\operatorname {swish} _{1}(x)&={\frac {x}{2}}\tanh \left({\frac {x}{2}}\right)+{\frac {x}{2}}\\\operatorname {swish} _{1}(x)+\operatorname {swish} _{-1}(x)&=x\tanh \left({\frac {x}{2}}\right)\\\operatorname {swish} _{1}(x)-\operatorname {swish} _{-1}(x)&=x\end{aligned}}$

Derivados

Porque , basta con calcular sus derivadas para el caso predeterminado. por lo que es impar. por lo que es par. $\operatorname {swish} _{\beta }(x)=\operatorname {swish} _{1}(\beta x)/\beta$ $\operatorname {swish} _{1}'(x)={\frac {x+\sinh(x)}{4\cosh ^{2}\left({\frac {x}{2}}\right)}}+{\frac {1}{2}}$ $\operatorname {swish} _{1}'(x)-{\frac {1}{2}}$ $\operatorname {swish} _{1}''(x)={\frac {1-{\frac {x}{2}}\tanh \left({\frac {x}{2}}\right)}{2\cosh ^{2}\left({\frac {x}{2}}\right)}}$ $\operatorname {swish} _{1}''(x)$

Historia

SiLU se propuso por primera vez junto con GELU en 2016, ^[4] luego se propuso nuevamente en 2017 como la Unidad lineal ponderada sigmoidea (SiL) en el aprendizaje de refuerzo . ^[5]^[1] Luego, SiLU/SiL se propuso nuevamente como SWISH más de un año después de su descubrimiento inicial, originalmente propuesto sin el parámetro aprendible β, de modo que β implícitamente fuera igual a 1. Luego, el documento swish se actualizó para proponer la activación con el parámetro aprendible β.

En 2017, después de realizar un análisis de los datos de ImageNet , los investigadores de Google indicaron que el uso de esta función como función de activación en redes neuronales artificiales mejora el rendimiento, en comparación con las funciones ReLU y sigmoideas. ^[1] Se cree que una de las razones de la mejora es que la función swish ayuda a aliviar el problema del gradiente de desaparición durante la retropropagación . ^[6]

Referencias

^ abcd Ramachandran, Prajit; Zoph, Barret; Le, Quoc V. (27 de octubre de 2017). "Búsqueda de funciones de activación". arXiv : 1710.05941v2 [cs.NE].
^ Atto, Abdourrahmane M.; Pastor, Dominique; Mercier, Gregoire (marzo de 2008). "Contracción suave de la ondícula sigmoidea para estimación no paramétrica". Conferencia internacional IEEE de 2008 sobre acústica, habla y procesamiento de señales (PDF) . págs. 3265–3268. doi :10.1109/ICASSP.2008.4518347. ISBN . 978-1-4244-1483-3.S2CID 9959057 .
^ Misra, Diganta (2019). "Mish: una función de activación neuronal no monótona autorregulada". arXiv : 1908.08681 [cs.LG].
^ Hendrycks, Dan; Gimpel, Kevin (2016). "Unidades lineales de error gaussiano (GELU)". arXiv : 1606.08415 [cs.LG].
^ Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2 de noviembre de 2017). "Unidades lineales ponderadas sigmoideas para la aproximación de funciones de redes neuronales en el aprendizaje por refuerzo". arXiv : 1702.03118v3 [cs.LG].
^ Serengil, Sefik Ilkin (21 de agosto de 2018). "Swish como función de activación de redes neuronales". Aprendizaje automático, Matemáticas. Archivado desde el original el 18 de junio de 2020. Consultado el 18 de junio de 2020 .