stringtranslate.com

Red neuronal de retroalimentación

En una red de propagación hacia adelante, la información siempre se mueve en una dirección; nunca va hacia atrás.

Una red neuronal de propagación hacia adelante ( FNN ) es uno de los dos tipos generales de redes neuronales artificiales , que se caracteriza por la dirección del flujo de información entre sus capas. [2] Su flujo es unidireccional, lo que significa que la información en el modelo fluye solo en una dirección (hacia adelante) desde los nodos de entrada, a través de los nodos ocultos (si los hay) y hacia los nodos de salida, sin ciclos ni bucles, [2] en contraste con las redes neuronales recurrentes , [3] que tienen un flujo bidireccional. Las redes de propagación hacia adelante modernas se entrenan utilizando el método de retropropagación [4] [5] [6] [7] [8] y se las conoce coloquialmente como redes neuronales "vanilla". [9]

Fundamentos matemáticos

Función de activación

Las dos funciones de activación históricamente comunes son ambas sigmoides y se describen mediante

.

La primera es una tangente hiperbólica que va de -1 a 1, mientras que la otra es la función logística , que tiene una forma similar pero va de 0 a 1. Aquí está la salida del nodo n.º (neurona) y es la suma ponderada de las conexiones de entrada. Se han propuesto funciones de activación alternativas, incluidas las funciones rectificadoras y softplus . Las funciones de activación más especializadas incluyen funciones de base radial (utilizadas en redes de base radial , otra clase de modelos de redes neuronales supervisadas).

En los últimos desarrollos del aprendizaje profundo, la unidad lineal rectificada (ReLU) se utiliza con mayor frecuencia como una de las posibles formas de superar los problemas numéricos relacionados con los sigmoides.

Aprendiendo

El aprendizaje se produce al cambiar los pesos de conexión después de procesar cada pieza de datos, en función de la cantidad de error en la salida en comparación con el resultado esperado. Este es un ejemplo de aprendizaje supervisado y se lleva a cabo mediante retropropagación .

Podemos representar el grado de error en un nodo de salida en el punto de datos th (ejemplo de entrenamiento) por , donde es el valor objetivo deseado para el punto de datos th en el nodo , y es el valor producido en el nodo cuando el punto de datos th se proporciona como entrada.

Los pesos de los nodos se pueden ajustar en función de las correcciones que minimizan el error en toda la salida para el punto de datos, dado por

.

Usando el descenso de gradiente , el cambio en cada peso es

donde es la salida de la neurona anterior , y es la tasa de aprendizaje , que se selecciona para asegurar que los pesos converjan rápidamente a una respuesta, sin oscilaciones. En la expresión anterior, denota la derivada parcial del error según la suma ponderada de las conexiones de entrada de la neurona .

La derivada que se debe calcular depende del campo local inducido , que a su vez varía. Es fácil demostrar que para un nodo de salida esta derivada se puede simplificar a

donde es la derivada de la función de activación descrita anteriormente, que en sí misma no varía. El análisis es más difícil para el cambio de pesos en un nodo oculto, pero se puede demostrar que la derivada relevante es

.

Esto depende del cambio en los pesos de los nodos th, que representan la capa de salida. Por lo tanto, para cambiar los pesos de la capa oculta, los pesos de la capa de salida cambian de acuerdo con la derivada de la función de activación, y por lo tanto este algoritmo representa una retropropagación de la función de activación. [10]

Historia

Cronología

Regresión lineal

Perceptrón

Si se utiliza un umbral, es decir, una función de activación lineal , la unidad de umbral lineal resultante se denomina perceptrón . (A menudo, el término se utiliza para denotar solo una de estas unidades). Múltiples unidades no lineales paralelas pueden aproximar cualquier función continua de un intervalo compacto de números reales en el intervalo [−1,1] a pesar del poder computacional limitado de una unidad única con una función de umbral lineal. [31]

Los perceptrones se pueden entrenar mediante un algoritmo de aprendizaje simple que suele denominarse regla delta . Calcula los errores entre los datos de salida calculados y los datos de salida de muestra, y los utiliza para crear un ajuste en los pesos, implementando así una forma de descenso de gradiente .

Perceptrón multicapa

Una red neuronal de dos capas capaz de calcular XOR . Los números dentro de las neuronas representan el umbral explícito de cada neurona. Los números que anotan flechas representan el peso de las entradas. Tenga en cuenta que si se alcanza el umbral de 2, se utiliza un valor de 1 para la multiplicación del peso a la siguiente capa. Si no se alcanza el umbral, se utiliza 0. La capa inferior de entradas no siempre se considera una capa de red neuronal real.

Un perceptrón multicapa ( MLP ) es un nombre inapropiado para una red neuronal artificial de propagación hacia adelante moderna, que consiste en neuronas completamente conectadas (de ahí el sinónimo a veces utilizado de red completamente conectada ( FCN )), a menudo con un tipo de función de activación no lineal, organizada en al menos tres capas, notable por ser capaz de distinguir datos que no son linealmente separables . [32]

Otras redes de propagación hacia adelante

Ejemplo de red neuronal convolucional 1D con avance de retroalimentación

Otros ejemplos de redes de propagación hacia adelante incluyen redes neuronales convolucionales y redes de función de base radial , que utilizan una función de activación diferente.

Véase también

Referencias

  1. ^ Ferrie, C., y Kaiser, S. (2019). Redes neuronales para bebés . Libros de consulta. ISBN 978-1492671206.{{cite book}}: CS1 maint: multiple names: authors list (link)
  2. ^ ab Zell, Andreas (1994). Simulación Neuronaler Netze [ Simulación de redes neuronales ] (en alemán) (1ª ed.). Addison-Wesley. pag. 73.ISBN 3-89319-554-8.
  3. ^ Schmidhuber, Jürgen (1 de enero de 2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes neuronales . 61 : 85–117. arXiv : 1404.7828 . doi :10.1016/j.neunet.2014.09.003. ISSN  0893-6080. PMID  25462637. S2CID  11715509.
  4. ^ Linnainmaa, Seppo (1970). La representación del error de redondeo acumulativo de un algoritmo como una expansión de Taylor de los errores de redondeo locales (Masters) (en finlandés). Universidad de Helsinki. págs. 6-7.
  5. ^ Kelley, Henry J. (1960). "Teoría de gradientes de trayectorias de vuelo óptimas". ARS Journal . 30 (10): 947–954. doi :10.2514/8.5282.
  6. ^ Rosenblatt, Frank. x. Principios de neurodinámica: perceptrones y teoría de los mecanismos cerebrales. Spartan Books, Washington DC, 1961
  7. ^ ab Werbos, Paul (1982). "Aplicaciones de los avances en el análisis de sensibilidad no lineal" (PDF) . Modelado y optimización de sistemas . Springer. pp. 762–770. Archivado (PDF) desde el original el 14 de abril de 2016. Consultado el 2 de julio de 2017 .
  8. ^ ab Rumelhart, David E., Geoffrey E. Hinton y RJ Williams. "Aprendizaje de representaciones internas mediante propagación de errores". David E. Rumelhart, James L. McClelland y el grupo de investigación PDP (editores), Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición, volumen 1: Fundamentos. MIT Press, 1986.
  9. ^ Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome. Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Springer, Nueva York, NY, 2009.
  10. ^ Haykin, Simon (1998). Redes neuronales: una base integral (2.ª edición). Prentice Hall. ISBN 0-13-273350-1.
  11. ^ Merriman, Mansfield. Lista de escritos relacionados con el método de mínimos cuadrados: con notas históricas y críticas . Vol. 4. Academy, 1877.
  12. ^ Stigler, Stephen M. (1981). "Gauss y la invención de los mínimos cuadrados". Ann. Stat . 9 (3): 465–474. doi : 10.1214/aos/1176345451 .
  13. ^ abcde Schmidhuber, Jürgen (2022). "Historia comentada de la IA moderna y el aprendizaje profundo". arXiv : 2212.11279 [cs.NE].
  14. ^ Bretscher, Otto (1995). Álgebra lineal con aplicaciones (3.ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.
  15. ^ Stigler, Stephen M. (1986). Historia de la estadística: la medición de la incertidumbre antes de 1900. Cambridge: Harvard. ISBN 0-674-40340-1.
  16. ^ McCulloch, Warren S.; Pitts, Walter (1943-12-01). "Un cálculo lógico de las ideas inmanentes en la actividad nerviosa". Boletín de biofísica matemática . 5 (4): 115–133. doi :10.1007/BF02478259. ISSN  1522-9602.
  17. ^ Rosenblatt, Frank (1958). "El perceptrón: un modelo probabilístico para el almacenamiento y la organización de la información en el cerebro". Psychological Review . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . doi :10.1037/h0042519. PMID  13602029. S2CID  12781225. 
  18. ^ ab Joseph, RD (1960). Contribuciones a la teoría del perceptrón, Cornell Aeronautical Laboratory Report No. VG-11 96--G-7, Buffalo .
  19. ^ Rosenblatt, Frank (1962). Principios de neurodinámica . Spartan, Nueva York.
  20. ^ Ivakhnenko, AG (1973). Dispositivos de predicción cibernética. CCM Information Corporation.
  21. ^ Ivakhnenko, AG ; Grigorʹevich Lapa, Valentin (1967). Cibernética y técnicas de previsión. American Elsevier Pub. Co.
  22. ^ Amari, Shun'ichi (1967). "Una teoría del clasificador de patrones adaptativo". Transacciones IEEE . EC (16): 279-307.
  23. ^ Linnainmaa, Seppo (1970). La representación del error de redondeo acumulativo de un algoritmo como una expansión de Taylor de los errores de redondeo locales (Masters) (en finlandés). Universidad de Helsinki. págs. 6-7.
  24. ^ Linnainmaa, Seppo (1976). "Expansión de Taylor del error de redondeo acumulado". BIT Numerical Mathematics . 16 (2): 146–160. doi :10.1007/bf01931367. S2CID  122357351.
  25. ^ Ostrovski, GM, Volin, YM y Boris, WW (1971). Sobre el cálculo de derivadas. Wiss. Z. Tech. Hochschule for Chemistry, 13:382–384.
  26. ^ ab Schmidhuber, Juergen (25 de octubre de 2014). "¿Quién inventó la retropropagación?". IDSIA, Suiza. Archivado desde el original el 30 de julio de 2024. Consultado el 14 de septiembre de 2024 .
  27. ^ Anderson, James A.; Rosenfeld, Edward, eds. (2000). Talking Nets: Una historia oral de las redes neuronales. The MIT Press. doi :10.7551/mitpress/6626.003.0016. ISBN 978-0-262-26715-1.
  28. ^ Werbos, Paul J. (1994). Las raíces de la retropropagación: de las derivadas ordenadas a las redes neuronales y la previsión política . Nueva York: John Wiley & Sons. ISBN 0-471-59897-6.
  29. ^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (octubre de 1986). "Aprendizaje de representaciones mediante retropropagación de errores". Nature . 323 (6088): 533–536. Bibcode :1986Natur.323..533R. doi :10.1038/323533a0. ISSN  1476-4687.
  30. ^ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (marzo de 2003). "Un modelo de lenguaje probabilístico neuronal". The Journal of Machine Learning Research . 3 : 1137–1155.
  31. ^ Auer, Peter; Harald Burgsteiner; Wolfgang Maass (2008). "Una regla de aprendizaje para aproximadores universales muy simples que consisten en una sola capa de perceptrones" (PDF) . Redes neuronales . 21 (5): 786–795. doi :10.1016/j.neunet.2007.12.036. PMID  18249524. Archivado desde el original (PDF) el 2011-07-06 . Consultado el 2009-09-08 .
  32. ^ Cybenko, G. 1989. Aproximación por superposiciones de una función sigmoidea Matemáticas de control, señales y sistemas , 2(4), 303–314.

Enlaces externos