Rectificador (redes neuronales)

En el contexto de las redes neuronales artificiales , la función de activación rectificadora o ReLU (unidad lineal rectificada) ^[1]^[2] es una función de activación definida como la parte positiva de su argumento:

f(x)=x^{+}=\max(0,x)={\frac {x+|x|}{2}}={\begin{cases}x&{\text{if }}x>0,\\0&{\text{otherwise}},\end{cases}}

donde x es la entrada a una neurona. Esto también se conoce como función de rampa y es análoga a la rectificación de media onda en ingeniería eléctrica . Esta función de activación fue introducida por Kunihiko Fukushima en 1969 en el contexto de la extracción de características visuales en redes neuronales jerárquicas. ^[3]^[4]^[5] Más tarde se argumentó que tiene fuertes motivaciones biológicas y justificaciones matemáticas. ^[6]^[7] En 2011 se descubrió que permitía un mejor entrenamiento de redes más profundas, ^[8] en comparación con las funciones de activación ampliamente utilizadas antes de 2011, por ejemplo, el sigmoide logístico (que está inspirado en la teoría de la probabilidad ; ver regresión logística ). y su contraparte más práctica ^{[9] , la}tangente hiperbólica . El rectificador es, desde 2017 ^[update], la función de activación más popular para redes neuronales profundas . ^[10]

Las unidades lineales rectificadas encuentran aplicaciones en visión por computadora ^[8] y reconocimiento de voz ^[11]^[12] utilizando redes neuronales profundas y neurociencia computacional . ^[13]^[14]^[15]

Ventajas

Activación escasa: por ejemplo, en una red inicializada aleatoriamente, solo alrededor del 50% de las unidades ocultas están activadas (tienen una salida distinta de cero).
Mejor propagación del gradiente: menos problemas de gradiente que desaparecen en comparación con las funciones de activación sigmoidales que se saturan en ambas direcciones. ^[8]
Cálculo eficiente: Sólo comparación, suma y multiplicación.
Invariante de escala: . $\max(0,ax)=a\max(0,x){\text{ for }}a\geq 0$

Se utilizaron funciones de activación rectificadora para separar la excitación específica y la inhibición inespecífica en la pirámide de abstracción neuronal, que se entrenó de forma supervisada para aprender varias tareas de visión por computadora. ^[16] En 2011, ^[8] se demostró que el uso del rectificador como no linealidad permite entrenar redes neuronales supervisadas profundas sin requerir un entrenamiento previo no supervisado . Las unidades lineales rectificadas, en comparación con la función sigmoidea o funciones de activación similares, permiten un entrenamiento más rápido y eficaz de arquitecturas neuronales profundas en conjuntos de datos grandes y complejos.

Problemas potenciales

No diferenciable en cero; sin embargo, es diferenciable en cualquier otro lugar y el valor de la derivada en cero se puede elegir arbitrariamente como 0 o 1.
No centrado en cero: las salidas ReLU siempre son no negativas. Esto puede dificultar que la red aprenda durante la retropropagación porque las actualizaciones de gradiente tienden a empujar los pesos en una dirección (positiva o negativa). La normalización por lotes puede ayudar a solucionar este problema. ^{[ cita necesaria ]}
Ilimitado.
Problema de ReLU moribundo: las neuronas ReLU (unidad lineal rectificada) a veces pueden ser empujadas a estados en los que se vuelven inactivas para esencialmente todas las entradas. En este estado, ningún gradiente fluye hacia atrás a través de la neurona, por lo que la neurona queda atrapada en un estado perpetuamente inactivo y "muere". Ésta es una forma del problema del gradiente evanescente . En algunos casos, una gran cantidad de neuronas en una red pueden quedar atrapadas en estados muertos, lo que efectivamente reduce la capacidad del modelo. Este problema suele surgir cuando la tasa de aprendizaje se establece demasiado alta. En su lugar, se puede mitigar utilizando ReLU con fugas, que asignan una pequeña pendiente positiva para x < 0; sin embargo, el rendimiento se reduce.

Variantes

Variantes lineales por partes

ReLU con fugas

Los ReLU con fugas permiten un gradiente pequeño y positivo cuando la unidad no está activa, ^[12] lo que ayuda a mitigar el problema del gradiente que desaparece.

f(x)={\begin{cases}x&{\text{if }}x>0,\\0.01x&{\text{otherwise}}.\end{cases}}\qquad \qquad f'(x)={\begin{cases}1&{\text{if }}x>0,\\0.01&{\text{otherwise}}.\end{cases}}

ReLU paramétrica

Los ReLU paramétricos (PReLU) llevan esta idea más allá al convertir el coeficiente de fuga en un parámetro que se aprende junto con los otros parámetros de la red neuronal. ^[17]

f(x)={\begin{cases}x&{\text{if }}x>0,\\a\cdot x&{\text{otherwise}}.\end{cases}}\qquad \qquad \qquad f'(x)={\begin{cases}1&{\text{if }}x>0,\\a&{\text{otherwise}}.\end{cases}}

Tenga en cuenta que para a ≤ 1, esto es equivalente a

f(x)=\max(x,ax)

y por lo tanto tiene una relación con las redes "maxout". ^[17]

Otras variantes no lineales

Unidad lineal de error gaussiano (GELU)

GELU es una aproximación suave al rectificador:

f(x)=x\cdot \Phi (x),

f'(x)=x\cdot \Phi '(x)+\Phi (x),

donde es la función de distribución acumulada de la distribución normal estándar . $\Phi (x)=P(X\leqslant x)$

Esta función de activación se ilustra en la figura al comienzo de este artículo. Tiene un "protuberancia" a la izquierda de x < 0 y sirve como activación predeterminada para modelos como BERT . ^[18]

SiLU

La SiLU (unidad lineal sigmoidea) o función swish ^[19] es otra aproximación suave, acuñada por primera vez en el artículo GELU: ^[18]

f(x)=x\cdot \operatorname {sigmoid} (x),

f'(x)=x\cdot \operatorname {sigmoid} '(x)+\operatorname {sigmoid} (x),

¿Dónde está la función sigmoidea ? $\operatorname {sigmoid} (x)$

Softplus

Una aproximación suave al rectificador es la función analítica.

f(x)=\ln(1+e^{x}),\qquad \qquad f'(x)={\frac {e^{x}}{1+e^{x}}}={\frac {1}{1+e^{-x}}},

que se llama función softplus ^[20]^[8] o SmoothReLU . ^[21] Para negativos grandes es aproximadamente , por lo que está justo por encima de 0, mientras que para positivos grandes es aproximadamente , por lo que está justo por encima de . $x$ $\ln 1$ $x$ $\ln(e^{x})$ $x$

Esta función se puede aproximar como:

\ln \left(1+e^{x}\right)\approx {\begin{cases}\ln 2,&x=0,\\[6pt]{\frac {x}{1-e^{-x/\ln 2}}},&x\neq 0\end{cases}}

Al realizar el cambio de variables , esto equivale a $x=y\ln(2)$

\log _{2}(1+2^{y})\approx {\begin{cases}1,&y=0,\\[6pt]{\frac {y}{1-e^{-y}}},&y\neq 0.\end{cases}}

Se puede incluir un parámetro de nitidez : $k$

f(x)={\frac {\ln(1+e^{kx})}{k}},\qquad \qquad f'(x)={\frac {e^{kx}}{1+e^{kx}}}={\frac {1}{1+e^{-kx}}}.

La derivada de softplus es la función logística .

La función sigmoidea logística es una aproximación suave de la derivada del rectificador, la función escalonada de Heaviside .

La generalización multivariable de softplus de una sola variable es LogSumExp con el primer argumento establecido en cero:

\operatorname {LSE_{0}} ^{+}(x_{1},\dots ,x_{n}):=\operatorname {LSE} (0,x_{1},\dots ,x_{n})=\ln(1+e^{x_{1}}+\cdots +e^{x_{n}}).

La función LogSumExp es

\operatorname {LSE} (x_{1},\dots ,x_{n})=\ln(e^{x_{1}}+\cdots +e^{x_{n}}),

y su gradiente es softmax ; el softmax con el primer argumento establecido en cero es la generalización multivariable de la función logística. Tanto LogSumExp como softmax se utilizan en el aprendizaje automático.

ELU

Las unidades lineales exponenciales intentan acercar las activaciones medias a cero, lo que acelera el aprendizaje. Se ha demostrado que las ELU pueden obtener una mayor precisión de clasificación que las ReLU. ^[22]

f(x)={\begin{cases}x&{\text{if }}x>0,\\a\left(e^{x}-1\right)&{\text{otherwise}}.\end{cases}}\qquad \qquad f'(x)={\begin{cases}1&{\text{if }}x>0,\\a\cdot e^{x}&{\text{otherwise}}.\end{cases}}

En estas fórmulas, hay un hiperparámetro que se debe ajustar con la restricción . $a$ $a\geq 0$

La ELU puede verse como una versión suavizada de una ReLU desplazada (SReLU), que tiene la forma , dada la misma interpretación de . $f(x)=\max(-a,x)$ $a$

Mismo

La función Mish también se puede utilizar como una aproximación suave del rectificador. ^[19] Se define como

f(x)=x\tanh {\big (}\operatorname {softplus} (x){\big )},

donde es la tangente hiperbólica y es la función softplus . $\tanh(x)$ $\operatorname {softplus} (x)$

Mish no es monótono y tiene un control autónomo. ^[23] Se inspiró en Swish , en sí mismo una variante de ReLU . ^[23]

cuadradoplus

Squareplus ^[24] es la función

\operatorname {squareplus} _{b}(x)={\frac {x+{\sqrt {x^{2}+b}}}{2}}

donde es un hiperparámetro que determina el "tamaño" de la región curva cerca de . (Por ejemplo, dejar produce ReLU y dejar produce la función media metálica ). Squareplus comparte muchas propiedades con softplus: es monótono , estrictamente positivo , se acerca a 0 cuando , se acerca a la identidad como y es suave . Sin embargo, squareplus se puede calcular utilizando únicamente funciones algebraicas , lo que lo hace muy adecuado para entornos donde los recursos computacionales o los conjuntos de instrucciones son limitados. Además, squareplus no requiere consideraciones especiales para garantizar la estabilidad numérica cuando es grande. $b\geq 0$ $x=0$ $b=0$ $b=4$ $x\to -\infty$ $x\to +\infty$ $C^{\infty }$ $x$

Ver también

Referencias

^ Brownlee, Jason (8 de enero de 2019). "Una suave introducción a la unidad lineal rectificada (ReLU)". Dominio del aprendizaje automático . Consultado el 8 de abril de 2021 .
^ Liu, Danqing (30 de noviembre de 2017). "Una guía práctica de ReLU". Medio . Consultado el 8 de abril de 2021 .
^ Fukushima, K. (1969). "Extracción de características visuales mediante una red multicapa de elementos de umbral analógicos". Transacciones IEEE sobre ciencia de sistemas y cibernética . 5 (4): 322–333. doi :10.1109/TSSC.1969.300225.
^ Fukushima, K.; Miyake, S. (1982). "Neocognitron: un modelo de red neuronal autoorganizada para un mecanismo de reconocimiento de patrones visuales". Competencia y cooperación en redes neuronales . Apuntes de conferencias sobre biomatemáticas. vol. 45. Saltador. págs. 267–285. doi :10.1007/978-3-642-46466-9_18. ISBN 978-3-540-11574-8. {{cite book}}: |journal=ignorado ( ayuda )
^ Schmidhuber, Jürgen (2022). "Historia comentada de la IA moderna y el aprendizaje profundo". arXiv : 2212.11279 [cs.NE].
^ Hahnloser, R.; Sarpeshkar, R.; Mahowald, MA; Douglas, RJ; Seung, SA (2000). "La selección digital y la amplificación analógica coexisten en un circuito de silicio inspirado en la corteza". Naturaleza . 405 (6789): 947–951. Código Bib :2000Natur.405..947H. doi :10.1038/35016072. PMID 10879535. S2CID 4399014.
^ Hahnloser, R.; Seung, SA (2001). Conjuntos permitidos y prohibidos en redes lineales de umbral simétricas . NIPS 2001.
^ abcde Xavier Glorot; Antoine Bordes; Yoshua Bengio (2011). Redes neuronales rectificadoras dispersas y profundas (PDF) . AISTATAS. Funciones de activación de rectificador y softplus. El segundo es una versión fluida del primero.
^ Yann LeCun ; León Bottou ; Genevieve B. Orr; Klaus-Robert Müller (1998). "BackProp eficiente" (PDF) . En G. Orr; K. Müller (eds.). Redes neuronales: trucos del oficio . Saltador.
^ Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 de octubre de 2017). "Búsqueda de funciones de activación". arXiv : 1710.05941 [cs.NE].
^ László Tóth (2013). Reconocimiento de teléfonos con redes neuronales rectificadoras dispersas profundas (PDF) . ICASSP .
^ ab Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Las no linealidades del rectificador mejoran los modelos acústicos de redes neuronales.
^ Hansel, D.; van Vreeswijk, C. (2002). "Cómo el ruido contribuye a la invariancia del contraste del ajuste de orientación en la corteza visual del gato". J. Neurosci. 22 (12): 5118–5128. doi :10.1523/JNEUROSCI.22-12-05118.2002. PMC 6757721 . PMID 12077207.
^ Kadmón, Jonathan; Sompolinsky, Haim (19 de noviembre de 2015). "Transición al caos en redes neuronales aleatorias". Revisión física X. 5 (4): 041030. arXiv : 1508.06486 . Código Bib : 2015PhRvX...5d1030K. doi : 10.1103/PhysRevX.5.041030. S2CID 7813832.
^ Engelken, Rainer; Lobo, Fred; Abbott, LF (3 de junio de 2020). "Espectros de Lyapunov de redes neuronales recurrentes caóticas". arXiv : 2006.02427 [nlin.CD].
^ Behnke, Sven (2003). Redes neuronales jerárquicas para la interpretación de imágenes. Apuntes de conferencias sobre informática. vol. 2766. Saltador. doi :10.1007/b11963. ISBN 978-3-540-40722-5. S2CID 1304548.
^ ab Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sol, Jian (2015). "Profundizar en los rectificadores: superar el rendimiento a nivel humano en la clasificación de redes de imágenes ". arXiv : 1502.01852 [cs.CV].
^ ab Hendrycks, Dan; Gimpel, Kevin (2016). "Unidades lineales de error gaussiano (GELU)". arXiv : 1606.08415 [cs.LG].
^ ab Diganta Misra (23 de agosto de 2019), Mish: una función de activación no monótona autoregulada (PDF) , arXiv : 1908.08681v1 , consultado el 26 de marzo de 2022.
^ Dugas, Carlos; Bengio, Yoshua; Bélisle, François; Nadeau, Claude; García, René (1 de enero de 2000). "Incorporación de conocimientos funcionales de segundo orden para mejorar la fijación de precios de opciones" (PDF) . Actas de la 13ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural (NIPS'00) . Prensa del MIT: 451–457. Dado que el sigmoide h tiene una primera derivada positiva, su primitiva, que llamamos softplus, es convexa.
^ "Capa delantera de unidad lineal rectificadora suave (SmoothReLU)". Guía para desarrolladores de la biblioteca de aceleración de análisis de datos Intel . 2017 . Consultado el 4 de diciembre de 2018 .
^ Inteligente, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015). "Aprendizaje de red profundo, rápido y preciso mediante unidades lineales exponenciales (ELU)". arXiv : 1511.07289 [cs.LG].
^ ab Shaw, Sweta (10 de mayo de 2020). "Funciones de activación comparadas con experimentos". W&B . Consultado el 11 de julio de 2022 .
^ Barron, Jonathan T. (22 de diciembre de 2021). "Squareplus: un rectificador algebraico similar a Softplus". arXiv : 2112.11687 [cs.NE].