Rectificador (redes neuronales)

En el contexto de las redes neuronales artificiales , la función de activación rectificadora o ReLU (unidad lineal rectificada) ^[1]^[2] es una función de activación definida como la parte no negativa de su argumento:

f(x)=x^{+}=\max(0,x)={\frac {x+|x|}{2}}={\begin{cases}x&{\text{if }}x>0,\\0&{\text{otherwise}},\end{cases}}

donde es la entrada a una neurona. Esto también se conoce como función de rampa y es análogo a la rectificación de media onda en ingeniería eléctrica . $x$

A partir de 2017 ^[update], es la función de activación más popular para redes neuronales profundas . ^[3] Las unidades lineales rectificadas encuentran aplicaciones en la visión por computadora ^[4] y el reconocimiento de voz ^[5]^[6] utilizando redes neuronales profundas y neurociencia computacional . ^[7]^[8]^[9]

Fue utilizado por primera vez por Alston Householder en 1941 como una abstracción matemática de redes neuronales biológicas. ^[10] Fue introducido por Kunihiko Fukushima en 1969 en el contexto de la extracción de características visuales en redes neuronales jerárquicas. ^[11]^[12] Más tarde se argumentó que tiene fuertes motivaciones biológicas y justificaciones matemáticas. ^[13]^[14] En 2011, ^[4] la activación de ReLU permitió entrenar redes neuronales profundas supervisadas sin entrenamiento previo no supervisado , en comparación con las funciones de activación ampliamente utilizadas antes de 2011, por ejemplo, la sigmoide logística (que está inspirada en la teoría de la probabilidad ; ver regresión logística ) y su contraparte más práctica ^{[15] , la}tangente hiperbólica .

Ventajas

Activación dispersa : por ejemplo, en una red inicializada aleatoriamente , solo alrededor del 50% de las unidades ocultas se activan (tienen una salida distinta de cero).
Mejor propagación del gradiente: menos problemas de gradiente que desaparecen en comparación con las funciones de activación sigmoideas que se saturan en ambas direcciones. ^[4]
Eficiente: Sólo requiere comparación y suma.
Invariante de escala ( homogéneo ): . $\max(0,ax)=a\max(0,x){\text{ for }}a\geq 0$

Problemas potenciales

No diferenciable en cero; sin embargo, es diferenciable en cualquier otro lugar y el valor de la derivada en cero puede elegirse arbitrariamente como 0 o 1.
No centrado en cero: las salidas ReLU siempre son no negativas. Esto puede dificultar el aprendizaje de la red durante la retropropagación porque las actualizaciones de gradiente tienden a empujar los pesos en una dirección (positiva o negativa). La normalización por lotes puede ayudar a solucionar este problema. ^{[ cita requerida ]}
Ilimitado.
ReLU moribunda: las neuronas ReLU a veces pueden ser empujadas a estados en los que se vuelven inactivas para prácticamente todas las entradas. En este estado, no fluyen gradientes hacia atrás a través de la neurona, y por lo tanto la neurona se queda atascada en un estado inactivo perpetuo y "muere". Esta es una forma del problema del gradiente evanescente . En algunos casos, una gran cantidad de neuronas en una red pueden quedar atascadas en estados muertos, lo que efectivamente disminuye la capacidad del modelo. Este problema surge típicamente cuando la tasa de aprendizaje se establece demasiado alta. Se puede mitigar utilizando ReLU con fugas en su lugar, que asignan una pequeña pendiente positiva para x < 0; sin embargo, el rendimiento se reduce.

Variantes

Variantes lineales por partes

ReLU con fugas

Las ReLU con fugas permiten un gradiente positivo pequeño cuando la unidad no está activa, ^[6] lo que ayuda a mitigar el problema del gradiente que desaparece.

f(x)={\begin{cases}x&{\text{if }}x>0,\\0.01x&{\text{otherwise}}.\end{cases}}\qquad \qquad f'(x)={\begin{cases}1&{\text{if }}x>0,\\0.01&{\text{otherwise}}.\end{cases}}

ReLU paramétrico

Las ReLU paramétricas (PReLU) llevan esta idea más allá al convertir el coeficiente de fuga en un parámetro que se aprende junto con los demás parámetros de la red neuronal. ^[16]

f(x)={\begin{cases}x&{\text{if }}x>0,\\a\cdot x&{\text{otherwise}}.\end{cases}}\qquad \qquad \qquad f'(x)={\begin{cases}1&{\text{if }}x>0,\\a&{\text{otherwise}}.\end{cases}}

Tenga en cuenta que para un ≤ 1, esto es equivalente a

f(x)=\max(x,ax)

y por lo tanto tiene una relación con las redes de "maximización". ^[16]

La ReLU concatenada (CReLU) conserva la información de fase positiva y negativa. ^[17] $\mathrm {CReLU} (x)=[\mathrm {ReLU} (x),\mathrm {ReLU} (-x)]$

Otras variantes no lineales

Unidad lineal de error gaussiano (GELU)

GELU es una aproximación suave al rectificador:

f(x)=x\cdot \Phi (x),

f'(x)=x\cdot \Phi '(x)+\Phi (x),

donde es la función de distribución acumulativa de la distribución normal estándar . $\Phi (x)=P(X\leqslant x)$

Esta función de activación se ilustra en la figura que aparece al comienzo de este artículo. Tiene una "protuberancia" a la izquierda de x < 0 y sirve como activación predeterminada para modelos como BERT . ^[18]

SiLU

La SiLU (unidad lineal sigmoidea) o función swish ^[19] es otra aproximación suave, acuñada por primera vez en el artículo de GELU: ^[18]

f(x)=x\cdot \operatorname {sigmoid} (x),

f'(x)=x\cdot \operatorname {sigmoid} '(x)+\operatorname {sigmoid} (x),

¿Dónde está la función sigmoidea ? $\operatorname {sigmoid} (x)$

Más suave

Una aproximación suave al rectificador es la función analítica

f(x)=\ln(1+e^{x}),\qquad \qquad f'(x)={\frac {e^{x}}{1+e^{x}}}={\frac {1}{1+e^{-x}}},

que se llama función softplus ^[20]^[4] o SmoothReLU . ^[21] Para grandes negativos es aproximadamente , por lo que justo por encima de 0, mientras que para grandes positivos es aproximadamente , por lo que justo por encima de . $x$ $\ln 1$ $x$ $\ln(e^{x})$ $x$

Esta función se puede aproximar como:

\ln \left(1+e^{x}\right)\approx {\begin{cases}\ln 2,&x=0,\\[6pt]{\frac {x}{1-e^{-x/\ln 2}}},&x\neq 0\end{cases}}

Al realizar el cambio de variables , esto equivale a $x=y\ln(2)$

\log _{2}(1+2^{y})\approx {\begin{cases}1,&y=0,\\[6pt]{\frac {y}{1-e^{-y}}},&y\neq 0.\end{cases}}

Se puede incluir un parámetro de nitidez : $k$

f(x)={\frac {\ln(1+e^{kx})}{k}},\qquad \qquad f'(x)={\frac {e^{kx}}{1+e^{kx}}}={\frac {1}{1+e^{-kx}}}.

La derivada de softplus es la función logística .

La función sigmoidea logística es una aproximación suave de la derivada del rectificador, la función escalón de Heaviside .

La generalización multivariable del softplus de una sola variable es LogSumExp con el primer argumento establecido en cero:

\operatorname {LSE_{0}} ^{+}(x_{1},\dots ,x_{n}):=\operatorname {LSE} (0,x_{1},\dots ,x_{n})=\ln(1+e^{x_{1}}+\cdots +e^{x_{n}}).

La función LogSumExp es

\operatorname {LSE} (x_{1},\dots ,x_{n})=\ln(e^{x_{1}}+\cdots +e^{x_{n}}),

y su gradiente es el softmax ; el softmax con el primer argumento establecido en cero es la generalización multivariable de la función logística. Tanto LogSumExp como softmax se utilizan en el aprendizaje automático.

ELU

Las unidades lineales exponenciales intentan hacer que las activaciones medias sean más cercanas a cero, lo que acelera el aprendizaje. Se ha demostrado que las ELU pueden obtener una mayor precisión de clasificación que las ReLU. ^[22]

f(x)={\begin{cases}x&{\text{if }}x>0,\\a\left(e^{x}-1\right)&{\text{otherwise}}.\end{cases}}\qquad \qquad f'(x)={\begin{cases}1&{\text{if }}x>0,\\a\cdot e^{x}&{\text{otherwise}}.\end{cases}}

En estas fórmulas, es un hiperparámetro que debe ajustarse con la restricción . $a$ $a\geq 0$

La ELU puede verse como una versión suavizada de una ReLU desplazada (SReLU), que tiene la forma , dada la misma interpretación de . $f(x)=\max(-a,x)$ $a$

Mezclar

La función mish también se puede utilizar como una aproximación suave del rectificador. ^[19] Se define como

f(x)=x\tanh {\big (}\operatorname {softplus} (x){\big )},

donde es la tangente hiperbólica , y es la función softplus . $\tanh(x)$ $\operatorname {softplus} (x)$

Mish no es monótono y es autocontrolado. ^[23] Se inspiró en Swish , una variante de ReLU . ^[23]

Cuadrado plus

Squareplus ^[24] es la función

\operatorname {squareplus} _{b}(x)={\frac {x+{\sqrt {x^{2}+b}}}{2}}

donde es un hiperparámetro que determina el "tamaño" de la región curva cerca de . (Por ejemplo, al dejar que se obtiene ReLU, y al dejar que se obtiene la función de media metálica ). Squareplus comparte muchas propiedades con softplus: es monótona , estrictamente positiva , se acerca a 0 cuando , se acerca a la identidad cuando y es suave . Sin embargo, squareplus se puede calcular utilizando solo funciones algebraicas , lo que la hace adecuada para configuraciones donde los recursos computacionales o los conjuntos de instrucciones son limitados. Además, squareplus no requiere ninguna consideración especial para garantizar la estabilidad numérica cuando es grande. $b\geq 0$ $x=0$ $b=0$ $b=4$ $x\to -\infty$ $x\to +\infty$ $C^{\infty }$ $x$

Véase también

Referencias

^ Brownlee, Jason (8 de enero de 2019). "Una introducción sencilla a la unidad lineal rectificada (ReLU)". Maestría en aprendizaje automático . Consultado el 8 de abril de 2021 .
^ Liu, Danqing (30 de noviembre de 2017). "Una guía práctica para ReLU". Medium . Consultado el 8 de abril de 2021 .
^ Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 de octubre de 2017). "Búsqueda de funciones de activación". arXiv : 1710.05941 [cs.NE].
^ abcd Xavier Glorot; Antoine Bordes; Yoshua Bengio (2011). Redes neuronales rectificadoras dispersas profundas (PDF) . AISTATS. Funciones de activación rectificadoras y softplus. La segunda es una versión suave de la primera.
^ László Tóth (2013). Reconocimiento de teléfonos con redes neuronales rectificadoras dispersas profundas (PDF) . ICASSP .
^ ab Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Las no linealidades del rectificador mejoran los modelos acústicos de redes neuronales.
^ Hansel, D.; van Vreeswijk, C. (2002). "Cómo el ruido contribuye a la invariancia del contraste en la orientación en la corteza visual del gato". J. Neurosci. 22 (12): 5118–5128. doi :10.1523/JNEUROSCI.22-12-05118.2002. PMC 6757721 . PMID 12077207.
^ Kadmon, Jonathan; Sompolinsky, Haim (19 de noviembre de 2015). "Transición al caos en redes neuronales aleatorias". Physical Review X . 5 (4): 041030. arXiv : 1508.06486 . Código Bibliográfico :2015PhRvX...5d1030K. doi :10.1103/PhysRevX.5.041030. S2CID 7813832.
^ Engelken, Rainer; Wolf, Fred; Abbott, LF (3 de junio de 2020). "Espectros de Lyapunov de redes neuronales recurrentes caóticas". arXiv : 2006.02427 [nlin.CD].
^ Householder, Alston S. (junio de 1941). "Una teoría de la actividad en estado estacionario en redes de fibras nerviosas: I. Definiciones y lemas preliminares". Boletín de biofísica matemática . 3 (2): 63–69. doi :10.1007/BF02478220. ISSN 0007-4985.
^ Fukushima, K. (1969). "Extracción de características visuales mediante una red multicapa de elementos de umbral analógicos". IEEE Transactions on Systems Science and Cybernetics . 5 (4): 322–333. doi :10.1109/TSSC.1969.300225.
^ Fukushima, K.; Miyake, S. (1982). "Neocognitrón: un modelo de red neuronal autoorganizada para un mecanismo de reconocimiento visual de patrones". Competencia y cooperación en redes neuronales . Apuntes de clase en biomatemáticas. Vol. 45. Springer. págs. 267–285. doi :10.1007/978-3-642-46466-9_18. ISBN . 978-3-540-11574-8. {{cite book}}: |journal=ignorado ( ayuda )
^ Hahnloser, R.; Sarpeshkar, R.; Mahowald, MA; Douglas, RJ; Seung, HS (2000). "La selección digital y la amplificación analógica coexisten en un circuito de silicio inspirado en la corteza". Nature . 405 (6789): 947–951. Bibcode :2000Natur.405..947H. doi :10.1038/35016072. PMID 10879535. S2CID 4399014.
^ Hahnloser, R.; Seung, HS (2001). Conjuntos permitidos y prohibidos en redes lineales de umbral simétrico . NIPS 2001.
^ Yann LeCun ; Leon Bottou ; Genevieve B. Orr; Klaus-Robert Müller (1998). "BackProp eficiente" (PDF) . En G. Orr; K. Müller (eds.). Redes neuronales: trucos del oficio . Springer.
^ ab He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015). "Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de redes de imágenes ". arXiv : 1502.01852 [cs.CV].
^ Shang, Wenling; Sohn, Kihyuk; Almeida, Diogo; Lee, Honglak (11 de junio de 2016). "Comprensión y mejora de las redes neuronales convolucionales mediante unidades lineales rectificadas concatenadas". Actas de la 33.ª Conferencia internacional sobre aprendizaje automático . PMLR: 2217–2225. arXiv : 1603.05201 .
^ ab Hendrycks, Dan; Gimpel, Kevin (2016). "Unidades lineales de error gaussiano (GELU)". arXiv : 1606.08415 [cs.LG].
^ ab Diganta Misra (23 de agosto de 2019), Mish: una función de activación no monótona autoregulada (PDF) , arXiv : 1908.08681v1 , consultado el 26 de marzo de 2022.
^ Dugas, Charles; Bengio, Yoshua; Bélisle, François; Nadeau, Claude; Garcia, René (1 de enero de 2000). "Incorporación de conocimiento funcional de segundo orden para una mejor fijación de precios de opciones" (PDF) . Actas de la 13.ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural (NIPS'00) . MIT Press: 451–457. Dado que la sigmoidea h tiene una primera derivada positiva, su primitiva, que llamamos softplus, es convexa.
^ "Capa avanzada de la unidad lineal de rectificador suave (SmoothReLU)". Guía para desarrolladores de la biblioteca de aceleración de análisis de datos de Intel . 2017 . Consultado el 4 de diciembre de 2018 .
^ Inteligente, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015). "Aprendizaje de red profundo, rápido y preciso mediante unidades lineales exponenciales (ELU)". arXiv : 1511.07289 [cs.LG].
^ ab Shaw, Sweta (10 de mayo de 2020). "Funciones de activación comparadas con experimentos". W&B . Consultado el 11 de julio de 2022 .
^ Barron, Jonathan T. (22 de diciembre de 2021). «Squareplus: un rectificador algebraico similar a Softplus». arXiv : 2112.11687 [cs.NE].