Función de activación

La función de activación de un nodo en una red neuronal artificial es una función que calcula la salida del nodo en función de sus entradas individuales y sus pesos. Los problemas no triviales se pueden resolver utilizando sólo unos pocos nodos si la función de activación no es lineal . ^[1] Las funciones de activación modernas incluyen la versión suave de ReLU , GELU, que se usó en el modelo BERT de 2018, ^[2] la función logística ( sigmoidea ) utilizada en el modelo de reconocimiento de voz de 2012 desarrollado por Hinton et al, ^{[3 ]} el ReLU utilizado en el modelo de visión por computadora AlexNet de 2012 y en el modelo ResNet de 2015 .

Comparación de funciones de activación.

Además de su desempeño empírico, las funciones de activación también tienen diferentes propiedades matemáticas:

No lineal: Cuando la función de activación no es lineal, se puede demostrar que una red neuronal de dos capas es un aproximador de función universal. ^[4] Esto se conoce como teorema de aproximación universal . La función de activación de identidad no satisface esta propiedad. Cuando varias capas utilizan la función de activación de identidad, toda la red es equivalente a un modelo de una sola capa.
Rango: Cuando el rango de la función de activación es finito, los métodos de entrenamiento basados en gradientes tienden a ser más estables, porque las presentaciones de patrones afectan significativamente sólo a pesos limitados. Cuando el rango es infinito, el entrenamiento es generalmente más eficiente porque las presentaciones de patrones afectan significativamente a la mayoría de los pesos. En el último caso, normalmente son necesarias tasas de aprendizaje más bajas. ^{[ cita necesaria ]}
Continuamente diferenciable: Esta propiedad es deseable ( ReLU no se puede diferenciar continuamente y tiene algunos problemas con la optimización basada en gradientes, pero aún es posible) para habilitar métodos de optimización basados en gradientes. La función de activación de pasos binarios no es diferenciable en 0 y se diferencia en 0 para todos los demás valores, por lo que los métodos basados en gradientes no pueden progresar con ella. ^[5]

Estas propiedades no influyen decisivamente en el rendimiento, ni son las únicas propiedades matemáticas que pueden resultar útiles. Por ejemplo, el rango estrictamente positivo del softplus lo hace adecuado para predecir variaciones en codificadores automáticos variacionales .

Detalles matemáticos

Las funciones de activación más comunes se pueden dividir en tres categorías: funciones de cresta , funciones radiales y funciones de plegado .

Una función de activación está saturada si . Es no saturado si no es saturado. Las funciones de activación no saturadas, como ReLU , pueden ser mejores que las funciones de activación saturadas, ya que las redes que las utilizan tienen menos probabilidades de sufrir el problema del gradiente de fuga . ^[6] $f$ $\lim _{|v|\to \infty }|\nabla f(v)|=0$

Funciones de activación de crestas

Las funciones de cresta son funciones multivariadas que actúan sobre una combinación lineal de las variables de entrada. Los ejemplos más utilizados incluyen: ^{[ se necesita aclaración ]}

Activación lineal : , $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$
Activación ReLU : , $\phi (\mathbf {v} )=\max(0,a+\mathbf {v} '\mathbf {b} )$
Activación de Heaviside : , $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$
Activación logística : . $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$

En las redes neuronales de inspiración biológica , la función de activación suele ser una abstracción que representa la tasa de activación del potencial de acción en la célula. ^[7] En su forma más simple, esta función es binaria , es decir, la neurona se activa o no. Las neuronas tampoco pueden dispararse más rápido que una cierta velocidad, lo que motiva funciones de activación sigmoideas cuyo rango es un intervalo finito.

La función se parece a donde está la función de paso de Heaviside . $\phi (\mathbf {v} )=U(a+\mathbf {v} '\mathbf {b} )$ $U$

Por otro lado, si una línea tiene una pendiente positiva , puede reflejar el aumento en la velocidad de disparo que se produce a medida que aumenta la corriente de entrada. Tal función sería de la forma . $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$

Funciones de activación radial

En las redes RBF se utiliza una clase especial de funciones de activación conocidas como funciones de base radial (RBF) , que son extremadamente eficientes como aproximadores de funciones universales. Estas funciones de activación pueden adoptar muchas formas, pero normalmente se encuentran como una de las siguientes funciones:

Gaussiano : $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$
Multicuadráticas: $\,\phi (\mathbf {v} )={\sqrt {\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}}}$
Multicuadráticas inversas: $\,\phi (\mathbf {v} )=\left(\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}\right)^{-{\frac {1}{2}}}$
splines poliarmónicos

donde es el vector que representa el centro de función y y son los parámetros que afectan la extensión del radio. $\mathbf {c}$ $a$ $\sigma$

Funciones de activación de plegado

Las funciones de activación plegable se utilizan ampliamente en las capas de agrupación de redes neuronales convolucionales y en las capas de salida de redes de clasificación multiclase. Estas activaciones realizan agregación sobre las entradas, como tomar la media , el mínimo o el máximo . En la clasificación multiclase se suele utilizar la activación softmax .

Tabla de funciones de activación.

La siguiente tabla compara las propiedades de varias funciones de activación que son funciones de un pliegue $x$ de la capa o capas anteriores:

La siguiente tabla enumera las funciones de activación que no son funciones de un solo pliegue $x$ de la capa o capas anteriores:

^ Aquíestá el delta del Kronecker .

\delta _{ij}

^ Por ejemplo,podría iterar a través del número de núcleos de la capa de red neuronal anterior mientrasse itera a través del número de núcleos de la capa actual.

j

i

Funciones de activación cuántica

En redes neuronales cuánticas programadas en computadoras cuánticas modelo de puerta , basadas en perceptrones cuánticos en lugar de circuitos cuánticos variacionales, la no linealidad de la función de activación se puede implementar sin necesidad de medir la salida de cada perceptrón en cada capa. Las propiedades cuánticas cargadas dentro del circuito, como la superposición, se pueden preservar creando la serie de Taylor del argumento calculada por el propio perceptrón, con circuitos cuánticos adecuados que calculan las potencias hasta un grado de aproximación deseado. Debido a la flexibilidad de tales circuitos cuánticos, pueden diseñarse para aproximarse a cualquier función de activación clásica arbitraria. ^[18]

Ver también

Referencias

^ Hinkelmann, Knut. "Redes neuronales, p. 7" (PDF) . Universidad de Ciencias Aplicadas del Noroeste de Suiza . Archivado desde el original (PDF) el 6 de octubre de 2018 . Consultado el 6 de octubre de 2018 .
^ abc Hendrycks, Dan; Gimpel, Kevin (2016). "Unidades lineales de error gaussiano (GELU)". arXiv : 1606.08415 [cs.LG].
^ Hinton, Geoffrey; Deng, Li; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-rahman; Jaitly, Navdeep; Mayor, Andrés; Vanhoucke, Vicente; Nguyen, Patricio; Sainath, Tara ; Kingsbury, Brian (2012). "Redes neuronales profundas para modelado acústico en reconocimiento de voz". Revista de procesamiento de señales IEEE . 29 (6): 82–97. doi :10.1109/MSP.2012.2205597. S2CID 206485943.
^ Cybenko, G. (diciembre de 1989). «Aproximación por superposiciones de una función sigmoidea» (PDF) . Matemáticas de Control, Señales y Sistemas . 2 (4): 303–314. doi :10.1007/BF02551274. ISSN 0932-4194. S2CID 3958369.
^ Snyman, enero (3 de marzo de 2005). Optimización matemática práctica: una introducción a la teoría de optimización básica y a los algoritmos clásicos y nuevos basados en gradientes. Medios de ciencia y negocios de Springer. ISBN 978-0-387-24348-1.
^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (24 de mayo de 2017). "Clasificación de ImageNet con redes neuronales convolucionales profundas". Comunicaciones de la ACM . 60 (6): 84–90. doi : 10.1145/3065386 . ISSN 0001-0782. S2CID 195908774.
^ Hodgkin, Alabama; Huxley, AF (28 de agosto de 1952). "Una descripción cuantitativa de la corriente de membrana y su aplicación a la conducción y excitación en los nervios". La Revista de Fisiología . 117 (4): 500–544. doi : 10.1113/jphysiol.1952.sp004764. PMC 1392413 . PMID 12991237.
^ Nair, Vinod; Hinton, Geoffrey E. (2010), "Las unidades lineales rectificadas mejoran las máquinas Boltzmann restringidas", 27ª Conferencia Internacional sobre Aprendizaje Automático , ICML'10, EE. UU.: Omnipress, págs. 807–814, ISBN 9781605589077
^ Glorot, Javier; Bordes, Antoine; Bengio, Yoshua (2011). "Redes neuronales rectificadoras profundas y dispersas" (PDF) . Congreso Internacional sobre Inteligencia Artificial y Estadística .
^ Inteligente, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (23 de noviembre de 2015). "Aprendizaje de red profundo, rápido y preciso mediante unidades lineales exponenciales (ELU)". arXiv : 1511.07289 [cs.LG].
^ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andrés; Hochreiter, Sepp (8 de junio de 2017). "Redes neuronales autonormalizadas". Avances en los sistemas de procesamiento de información neuronal . 30 (2017). arXiv : 1706.02515 .
^ Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (junio de 2013). "Las no linealidades del rectificador mejoran los modelos acústicos de redes neuronales". Proc. ICML . 30 (1). S2CID 16489696.
^ Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sol, Jian (6 de febrero de 2015). "Profundizar en los rectificadores: superar el rendimiento a nivel humano en la clasificación ImageNet". arXiv : 1502.01852 [cs.CV].
^ Atto, Abdourrahmane M.; Pastor, Dominique; Mercier, Grégoire (2008), "Contracción suave de ondas sigmoideas para estimación no paramétrica" (PDF) , Conferencia internacional IEEE de 2008 sobre acústica, habla y procesamiento de señales , doi :10.1109/ICASSP.2008.4518347, S2CID 9959057
^ Ala de elfo, Stefan; Uchibe, Eiji; Doya, Kenji (2018). "Unidades lineales ponderadas sigmoideas para la aproximación de funciones de redes neuronales en el aprendizaje por refuerzo". Redes neuronales . 107 : 3–11. arXiv : 1702.03118 . doi :10.1016/j.neunet.2017.12.012. PMID 29395652. S2CID 6940861.
^ Ramachandran, Prajit; Zoph, Barret; Le, Quoc V (2017). "Búsqueda de funciones de activación". arXiv : 1710.05941 [cs.NE].
^ Buen compañero, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aarón; Bengio, Yoshua (2013). "Redes Maxout". Actas de conferencias y talleres de JMLR . 28 (3): 1319-1327. arXiv : 1302.4389 .
^ Maronés, Marco; Destri, Claudio; Prati, Enrico (2022). "Funciones de activación cuántica para redes neuronales cuánticas". Procesamiento de información cuántica . 21 (4): 128. arXiv : 2201.03700 . doi :10.1007/s11128-022-03466-0. ISSN 1570-0755.