Función de activación

La función de activación de un nodo en una red neuronal artificial es una función que calcula la salida del nodo en función de sus entradas individuales y sus pesos. Los problemas no triviales se pueden resolver utilizando solo unos pocos nodos si la función de activación es no lineal . ^[1] Las funciones de activación modernas incluyen la versión suave de ReLU , la GELU, que se utilizó en el modelo BERT de 2018 , ^[2] la función logística ( sigmoidea ) utilizada en el modelo de reconocimiento de voz de 2012 desarrollado por Hinton et al, ^[3] la ReLU utilizada en el modelo de visión por computadora AlexNet de 2012 ^[4]^[5] y en el modelo ResNet de 2015.

Comparación de funciones de activación

Además de su desempeño empírico, las funciones de activación también tienen diferentes propiedades matemáticas:

No lineal: Cuando la función de activación no es lineal, se puede demostrar que una red neuronal de dos capas es un aproximador de funciones universal. ^[6] Esto se conoce como el Teorema de Aproximación Universal . La función de activación de identidad no satisface esta propiedad. Cuando varias capas utilizan la función de activación de identidad, toda la red es equivalente a un modelo de una sola capa.
Rango: Cuando el rango de la función de activación es finito, los métodos de entrenamiento basados en gradientes tienden a ser más estables, porque las presentaciones de patrones afectan significativamente solo a pesos limitados. Cuando el rango es infinito, el entrenamiento es generalmente más eficiente porque las presentaciones de patrones afectan significativamente a la mayoría de los pesos. En el último caso, normalmente se necesitan tasas de aprendizaje más pequeñas . ^{[ cita requerida ]}
Continuamente diferenciable: Esta propiedad es deseable ( ReLU no es continuamente diferenciable y tiene algunos problemas con la optimización basada en gradientes, pero aún es posible) para permitir métodos de optimización basados en gradientes. La función de activación de paso binario no es diferenciable en 0, y se diferencia a 0 para todos los demás valores, por lo que los métodos basados en gradientes no pueden avanzar con ella. ^[7]

Estas propiedades no influyen decisivamente en el rendimiento, ni son las únicas propiedades matemáticas que pueden resultar útiles. Por ejemplo, el rango estrictamente positivo del softplus lo hace adecuado para predecir variaciones en los autocodificadores variacionales .

Detalles matemáticos

Las funciones de activación más comunes se pueden dividir en tres categorías: funciones de cresta , funciones radiales y funciones de pliegue .

Una función de activación es saturada si . Es no saturada si es . Las funciones de activación no saturadas, como ReLU , pueden ser mejores que las funciones de activación saturadas, porque es menos probable que sufran el problema del gradiente evanescente . ^[8] $f$ $\lim _{|v|\to \infty }|\nabla f(v)|=0$ $\lim _{|v|\to \infty }|\nabla f(v)|\neq 0$

Funciones de activación de crestas

Las funciones de cresta son funciones multivariadas que actúan sobre una combinación lineal de las variables de entrada. Algunos ejemplos que se utilizan con frecuencia son: ^{[ se necesita aclaración ]}

Activación lineal : , $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$
Activación de ReLU : , $\phi (\mathbf {v} )=\max(0,a+\mathbf {v} '\mathbf {b} )$
Activación de Heaviside : , $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$
Activación logística : . $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$

En las redes neuronales de inspiración biológica , la función de activación suele ser una abstracción que representa la tasa de activación del potencial de acción en la célula. ^[9] En su forma más simple, esta función es binaria , es decir, la neurona se activa o no. Las neuronas tampoco pueden activarse más rápido que una determinada tasa, lo que motiva funciones de activación sigmoideas cuyo rango es un intervalo finito.

La función se ve así , donde es la función escalonada de Heaviside . $\phi (\mathbf {v} )=U(a+\mathbf {v} '\mathbf {b} )$ $U$

Por otro lado, si una línea tiene una pendiente positiva , puede reflejar el aumento en la tasa de disparo que se produce a medida que aumenta la corriente de entrada. Una función de este tipo tendría la forma . $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$

Funciones de activación radial

En las redes RBF se utiliza una clase especial de funciones de activación conocidas como funciones de base radial (RBF) . Estas funciones de activación pueden adoptar muchas formas, pero normalmente se encuentran como una de las siguientes funciones:

Gaussiano : $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$
Multicuadráticas: $\,\phi (\mathbf {v} )={\sqrt {\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}}}$
Multicuadráticas inversas: $\,\phi (\mathbf {v} )=\left(\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}\right)^{-{\frac {1}{2}}}$
Splines poliarmónicos

donde es el vector que representa el centro de la función y son parámetros que afectan la dispersión del radio. $\mathbf {c}$ $a$ $\sigma$

Otros ejemplos

Las funciones periódicas pueden servir como funciones de activación. Generalmente se utiliza la senoide , ya que cualquier función periódica se puede descomponer en senos mediante la transformada de Fourier . ^[10]

Mapas de activación cuadrática . ^[11]^[12] $x\mapsto x^{2}$

Funciones de activación de plegado

Las funciones de activación de plegado se utilizan ampliamente en las capas de agrupación de las redes neuronales convolucionales y en las capas de salida de las redes de clasificación multiclase. Estas activaciones realizan agregación sobre las entradas, como tomar la media , el mínimo o el máximo . En la clasificación multiclase, se utiliza a menudo la activación softmax .

Tabla de funciones de activación

La siguiente tabla compara las propiedades de varias funciones de activación que son funciones de un pliegue $x$ de la capa o capas anteriores:

La siguiente tabla enumera las funciones de activación que no son funciones de un solo pliegue $x$ de la capa o capas anteriores:

^ Aquíestá el delta de Kronecker .

\delta _{ij}

^ Por ejemplo,podría estar iterando a través del número de núcleos de la capa de red neuronal anterior mientrasitera a través del número de núcleos de la capa actual.

j

i

Funciones de activación cuántica

En las redes neuronales cuánticas programadas en computadoras cuánticas de modelo de compuerta , basadas en perceptrones cuánticos en lugar de circuitos cuánticos variacionales, la no linealidad de la función de activación se puede implementar sin necesidad de medir la salida de cada perceptrón en cada capa. Las propiedades cuánticas cargadas dentro del circuito, como la superposición, se pueden preservar creando la serie de Taylor del argumento calculado por el propio perceptrón, con circuitos cuánticos adecuados que calculen las potencias hasta un grado de aproximación deseado. Debido a la flexibilidad de dichos circuitos cuánticos, se pueden diseñar para aproximarse a cualquier función de activación clásica arbitraria. ^[25]

Véase también

Referencias

^ Hinkelmann, Knut. «Neural Networks, p. 7» (PDF) . Universidad de Ciencias Aplicadas del Noroeste de Suiza . Archivado desde el original (PDF) el 2018-10-06 . Consultado el 2018-10-06 .
^ abc Hendrycks, Dan; Gimpel, Kevin (2016). "Unidades lineales de error gaussiano (GELU)". arXiv : 1606.08415 [cs.LG].
^ Hinton, Geoffrey; Deng, Li; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara ; Kingsbury, Brian (2012). "Redes neuronales profundas para modelado acústico en reconocimiento de voz". Revista IEEE Signal Processing . 29 (6): 82–97. doi :10.1109/MSP.2012.2205597. S2CID 206485943.
^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (24 de mayo de 2017). "Clasificación ImageNet con redes neuronales convolucionales profundas". Comunicaciones de la ACM . 60 (6): 84–90. doi :10.1145/3065386. ISSN 0001-0782.
^ Universidad Rey Abdulaziz; Al-johania, Norah; Elrefaei, Lamiaa; Universidad Benha (30 de junio de 2019). "Reconocimiento de la vena dorsal de la mano mediante redes neuronales convolucionales: enfoques de aprendizaje de características y aprendizaje por transferencia" (PDF) . Revista internacional de ingeniería y sistemas inteligentes . 12 (3): 178–191. doi :10.22266/ijies2019.0630.19.
^ Cybenko, G. (diciembre de 1989). "Aproximación por superposición de una función sigmoidea" (PDF) . Matemáticas de control, señales y sistemas . 2 (4): 303–314. Bibcode :1989MCSS....2..303C. doi :10.1007/BF02551274. ISSN 0932-4194. S2CID 3958369.
^ Snyman, Jan (3 de marzo de 2005). Optimización matemática práctica: Introducción a la teoría básica de optimización y algoritmos clásicos y nuevos basados en gradientes. Springer Science & Business Media. ISBN 978-0-387-24348-1.
^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (24 de mayo de 2017). "Clasificación ImageNet con redes neuronales convolucionales profundas". Comunicaciones de la ACM . 60 (6): 84–90. doi : 10.1145/3065386 . ISSN 0001-0782. S2CID 195908774.
^ Hodgkin, AL; Huxley, AF (28 de agosto de 1952). "Una descripción cuantitativa de la corriente de membrana y su aplicación a la conducción y excitación en los nervios". The Journal of Physiology . 117 (4): 500–544. doi :10.1113/jphysiol.1952.sp004764. PMC 1392413 . PMID 12991237.
^ Sitzmann, Vincent; Martel, Julien; Bergman, Alexander; Lindell, David; Wetzstein, Gordon (2020). "Representaciones neuronales implícitas con funciones de activación periódica". Avances en sistemas de procesamiento de información neuronal . 33 . Curran Associates, Inc.: 7462–7473. arXiv : 2006.09661 .
^ Flake, Gary William (1998), Orr, Genevieve B.; Müller, Klaus-Robert (eds.), "Perceptrones multicapa radialmente extendidos y aumentados con unidad cuadrada", Neural Networks: Tricks of the Trade , Lecture Notes in Computer Science, vol. 1524, Berlín, Heidelberg: Springer, págs. 145-163, doi :10.1007/3-540-49430-8_8, ISBN 978-3-540-49430-0, consultado el 5 de octubre de 2024
^ Du, Simon; Lee, Jason (3 de julio de 2018). "Sobre el poder de la sobreparametrización en redes neuronales con activación cuadrática". Actas de la 35.ª Conferencia internacional sobre aprendizaje automático . PMLR: 1329–1338. arXiv : 1803.01206 .
^ Nair, Vinod; Hinton, Geoffrey E. (2010), "Las unidades lineales rectificadas mejoran las máquinas de Boltzmann restringidas", 27.ª Conferencia internacional sobre aprendizaje automático , ICML'10, EE. UU.: Omnipress, págs. 807–814, ISBN 9781605589077
^ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). "Redes neuronales rectificadoras dispersas y profundas" (PDF) . Conferencia Internacional sobre Inteligencia Artificial y Estadística .
^ Inteligente, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (23 de noviembre de 2015). "Aprendizaje de red profundo, rápido y preciso mediante unidades lineales exponenciales (ELU)". arXiv : 1511.07289 [cs.LG].
^ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andrés; Hochreiter, Sepp (8 de junio de 2017). "Redes neuronales autonormalizadas". Avances en los sistemas de procesamiento de información neuronal . 30 (2017). arXiv : 1706.02515 .
^ Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (junio de 2013). "Las no linealidades de los rectificadores mejoran los modelos acústicos de redes neuronales". Proc. ICML . 30 (1). S2CID 16489696.
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (6 de febrero de 2015). "Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de ImageNet". arXiv : 1502.01852 [cs.CV].
^ Atto, Abdourrahmane M.; Galichet, Sylvie; Pastor, Dominique; Méger, Nicolas (2023), "Sobre parametrizaciones conjuntas de funcionales lineales y no lineales en redes neuronales", Elsevier Pattern Recognition
^ Atto, Abdourrahmane M.; Pastor, Dominique; Mercier, Grégoire (2008), "Contracción suave de la ondícula sigmoidea para estimación no paramétrica" (PDF) , 2008 IEEE International Conference on Acoustics, Speech and Signal Processing , págs. 3265–3268, doi :10.1109/ICASSP.2008.4518347, ISBN 978-1-4244-1483-3, Número de identificación del sujeto 9959057
^ Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2018). "Unidades lineales ponderadas sigmoideas para la aproximación de funciones de redes neuronales en el aprendizaje por refuerzo". Redes neuronales . 107 : 3–11. arXiv : 1702.03118 . doi :10.1016/j.neunet.2017.12.012. PMID 29395652. S2CID 6940861.
^ Ramachandran, Prajit; Zoph, Barret; Le, Quoc V (2017). "Búsqueda de funciones de activación". arXiv : 1710.05941 [cs.NE].
^ Basirat, Mina; Roth, Peter M. (2018-08-02), La búsqueda de la función de activación dorada, arXiv : 1808.00783 , consultado el 2024-10-05
^ Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013). "Maxout Networks". Actas de talleres y conferencias de JMLR . 28 (3): 1319–1327. arXiv : 1302.4389 .
^ Maronese, Marco; Destri, Claudio; Prati, Enrico (2022). "Funciones de activación cuántica para redes neuronales cuánticas". Procesamiento de información cuántica . 21 (4): 128. arXiv : 2201.03700 . Código Bibliográfico :2022QuIP...21..128M. doi :10.1007/s11128-022-03466-0. ISSN 1570-0755.

Lectura adicional

Nwankpa, Chigozie; Ijomah, Winifred; Gachagan, Anthony; Marshall, Stephen (8 de noviembre de 2018). "Funciones de activación: comparación de tendencias en la práctica y la investigación para el aprendizaje profundo". arXiv : 1811.03378 [cs.LG].
Dubey, Shiv Ram; Singh, Satish Kumar; Chaudhuri, Bidyut Baran (2022). "Funciones de activación en el aprendizaje profundo: una encuesta y un análisis comparativo exhaustivos". Neurocomputing . 503 . Elsevier BV: 92–108. doi : 10.1016/j.neucom.2022.06.111 . ISSN 0925-2312.