Función de activación matemática en el análisis de datos
La función swish es una familia de funciones matemáticas definidas de la siguiente manera:
[1]
donde puede ser constante (normalmente establecido en 1) o entrenable .
La familia swish fue diseñada para interpolar suavemente entre una función lineal y la función ReLU.
Al considerar valores positivos, Swish es un caso particular de función de contracción sigmoidea doblemente parametrizada definida en [2] : ecuación 3. Las variantes de la función swish incluyen Mish . [3]
Valores especiales
Para β = 0, la función es lineal: f( x ) = x /2.
Para β = 1, la función es la Unidad Lineal Sigmoidea (SiLU).
Con β → ∞, la función converge a ReLU .
De esta forma, la familia swish interpola suavemente entre una función lineal y la función ReLU. [1]
Dado que todas las instancias de swish tienen la misma forma que la predeterminada , ampliada por . Por lo general, se establece . Cuando es entrenable, esta restricción se puede aplicar mediante , donde es entrenable.
Derivados
Porque , basta con calcular sus derivadas para el caso predeterminado. por lo que es impar. por lo que es par.
Historia
SiLU se propuso por primera vez junto con GELU en 2016, [4] luego se propuso nuevamente en 2017 como la Unidad lineal ponderada sigmoidea (SiL) en el aprendizaje de refuerzo . [5] [1] Luego, SiLU/SiL se propuso nuevamente como SWISH más de un año después de su descubrimiento inicial, originalmente propuesto sin el parámetro aprendible β, de modo que β implícitamente fuera igual a 1. Luego, el documento swish se actualizó para proponer la activación con el parámetro aprendible β.
^ abcd Ramachandran, Prajit; Zoph, Barret; Le, Quoc V. (27 de octubre de 2017). "Búsqueda de funciones de activación". arXiv : 1710.05941v2 [cs.NE].
^ Atto, Abdourrahmane M.; Pastor, Dominique; Mercier, Gregoire (marzo de 2008). "Contracción suave de la ondícula sigmoidea para estimación no paramétrica". Conferencia internacional IEEE de 2008 sobre acústica, habla y procesamiento de señales (PDF) . págs. 3265–3268. doi :10.1109/ICASSP.2008.4518347. ISBN .978-1-4244-1483-3.S2CID 9959057 .
^ Misra, Diganta (2019). "Mish: una función de activación neuronal no monótona autorregulada". arXiv : 1908.08681 [cs.LG].
^ Hendrycks, Dan; Gimpel, Kevin (2016). "Unidades lineales de error gaussiano (GELU)". arXiv : 1606.08415 [cs.LG].
^ Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2 de noviembre de 2017). "Unidades lineales ponderadas sigmoideas para la aproximación de funciones de redes neuronales en el aprendizaje por refuerzo". arXiv : 1702.03118v3 [cs.LG].
^ Serengil, Sefik Ilkin (21 de agosto de 2018). "Swish como función de activación de redes neuronales". Aprendizaje automático, Matemáticas. Archivado desde el original el 18 de junio de 2020. Consultado el 18 de junio de 2020 .