Red neuronal de avance

Una red neuronal feedforward ( FNN ) es uno de los dos tipos amplios de redes neuronales artificiales , caracterizadas por la dirección del flujo de información entre sus capas. ^[2] Su flujo es unidireccional, lo que significa que la información en el modelo fluye en una sola dirección (hacia adelante) desde los nodos de entrada, a través de los nodos ocultos (si los hay) y hasta los nodos de salida, sin ciclos ni bucles. ^[2] a diferencia de las redes neuronales recurrentes , ^[3] que tienen un flujo bidireccional. Las redes feedforward modernas se entrenan utilizando el método de retropropagación ^[4]^[5]^[6]^[7]^[8] y se las conoce coloquialmente como redes neuronales "vainilla". ^[9]

Línea de tiempo

En 1943, Warren McCulloch y Walter Pitts propusieron la neurona artificial binaria como modelo lógico de redes neuronales biológicas. ^[10]
En 1958, Frank Rosenblatt propuso el modelo de perceptrón multicapa , que constaba de una capa de entrada, una capa oculta con pesos aleatorios que no aprendían y una capa de salida con conexiones que se podían aprender. ^[11]
En 1962, Rosenblatt publicó muchas variantes y experimentos con perceptrones en su libro Principios de neurodinámica , incluidas hasta 2 capas entrenables mediante "errores de retropropagación". ^[12] Sin embargo, no era el algoritmo de retropropagación y no tenía un método general para entrenar múltiples capas.

En 1965, Alexey Grigorevich Ivakhnenko y Valentin Lapa publicaron Group Method of Data Handling . Fue uno de los primeros métodos de aprendizaje profundo , utilizado para entrenar una red neuronal de ocho capas en 1971. ^[13]^[14]^[15]

En 1967, Shun'ichi Amari informó ^[16] que la primera red neuronal multicapa entrenada mediante descenso de gradiente estocástico fue capaz de clasificar clases de patrones no linealmente separables. Saito, alumno de Amari, llevó a cabo los experimentos informáticos utilizando una red de alimentación directa de cinco capas con dos capas de aprendizaje. ^[15]

La retropropagación se desarrolló de forma independiente varias veces a principios de la década de 1970. El primer ejemplo publicado fue la tesis de maestría de Seppo Linnainmaa (1970). ^[4]^[17]^[15] Paul Werbos lo desarrolló de forma independiente en 1971, ^[18] pero tuvo dificultades para publicarlo hasta 1982. ^[7]

En 1986, David E. Rumelhart et al. popularizó la retropropagación. ^[19]^[8]

En 2003, el interés en las redes de retropropagación volvió debido a los éxitos del aprendizaje profundo aplicado al modelado del lenguaje por Yoshua Bengio y sus coautores. ^[20]

Fundamentos matemáticos

Función de activación

Las dos funciones de activación históricamente comunes son ambas sigmoideas y se describen por

y(v_{i})=\tanh(v_{i})~~{\textrm {and}}~~y(v_{i})=(1+e^{-v_{i}})^{-1}

La primera es una tangente hiperbólica que varía de -1 a 1, mientras que la otra es la función logística , que es similar en forma pero varía de 0 a 1. Aquí está la salida del nodo número (neurona) y es la suma ponderada. de las conexiones de entrada. Se han propuesto funciones de activación alternativas, incluidas las funciones rectificador y softplus . Las funciones de activación más especializadas incluyen funciones de base radial (utilizadas en redes de base radial , otra clase de modelos de redes neuronales supervisadas). $y_{i}$ $i$ $v_{i}$

En desarrollos recientes del aprendizaje profundo, la unidad lineal rectificada (ReLU) se utiliza con mayor frecuencia como una de las posibles formas de superar los problemas numéricos relacionados con los sigmoideos.

Aprendiendo

El aprendizaje se produce cambiando los pesos de las conexiones después de procesar cada dato, en función de la cantidad de error en la salida en comparación con el resultado esperado. Este es un ejemplo de aprendizaje supervisado y se lleva a cabo mediante retropropagación .

Podemos representar el grado de error en un nodo de salida en el enésimo punto de datos (ejemplo de entrenamiento) mediante , donde es el valor objetivo deseado para el enésimo punto de datos en el nodo y es el valor producido en el nodo cuando el enésimo punto de datos se proporciona como una entrada. $j$ $n$ $e_{j}(n)=d_{j}(n)-y_{j}(n)$ $d_{j}(n)$ $n$ $j$ $y_{j}(n)$ $j$ $n$

Luego, los pesos de los nodos se pueden ajustar en función de correcciones que minimicen el error en toda la salida para el punto de datos, dado por $n$

{\mathcal {E}}(n)={\frac {1}{2}}\sum _{{\text{output node }}j}e_{j}^{2}(n)

Usando el descenso de gradiente , el cambio en cada peso es $w_{ij}$

\Delta w_{ji}(n)=-\eta {\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}y_{i}(n)

donde es la salida de la neurona anterior , y es la tasa de aprendizaje , que se selecciona para asegurar que los pesos converjan rápidamente a una respuesta, sin oscilaciones. En la expresión anterior, denota la derivada parcial del error según la suma ponderada de las conexiones de entrada de la neurona . $y_{i}(n)$ $i$ $\eta$ ${\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}$ ${\mathcal {E}}(n)$ $v_{j}(n)$ $i$

La derivada a calcular depende del campo local inducido , que a su vez varía. Es fácil demostrar que para un nodo de salida esta derivada se puede simplificar a $v_{j}$

-{\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}=e_{j}(n)\phi ^{\prime }(v_{j}(n))

donde es la derivada de la función de activación descrita anteriormente, que a su vez no varía. El análisis es más difícil para el cambio de pesos a un nodo oculto, pero se puede demostrar que la derivada relevante es $\phi ^{\prime }$

-{\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}=\phi ^{\prime }(v_{j}(n))\sum _{k}-{\frac {\partial {\mathcal {E}}(n)}{\partial v_{k}(n)}}w_{kj}(n)

Esto depende del cambio en los pesos de los nodos ésimos, que representan la capa de salida. Entonces, para cambiar los pesos de la capa oculta, los pesos de la capa de salida cambian según la derivada de la función de activación, por lo que este algoritmo representa una propagación hacia atrás de la función de activación. ^[21] $k$

Historia

Regresión lineal

La red feedforward más simple consta de una única capa de peso sin funciones de activación. Sería simplemente un mapa lineal y entrenarlo sería una regresión lineal. Legendre (1805) y Gauss (1795) utilizaron la regresión lineal por el método de mínimos cuadrados para predecir el movimiento planetario. ^[22]^[23]^[24]^[25]

perceptrón

Si se utiliza un umbral, es decir, una función de activación lineal, la unidad de umbral lineal resultante se denomina perceptrón . (A menudo, el término se usa para denotar solo una de estas unidades). Múltiples unidades no lineales paralelas pueden aproximar cualquier función continua desde un intervalo compacto de números reales al intervalo [−1,1] a pesar de la potencia computacional limitada. de una sola unidad con una función de umbral lineal. ^[26]

Los perceptrones pueden entrenarse mediante un algoritmo de aprendizaje sencillo que suele denominarse regla delta . Calcula los errores entre la salida calculada y los datos de salida de muestra, y los utiliza para crear un ajuste en los pesos, implementando así una forma de descenso de gradiente .

Perceptrón multicapa

Un perceptrón multicapa ( MLP ) es un nombre inapropiado para una red neuronal artificial moderna, que consta de neuronas completamente conectadas (de ahí el sinónimo utilizado a veces de red completamente conectada ( FCN )), a menudo con un tipo de función de activación no lineal, organizada en al menos Tres capas, destacando por poder distinguir datos que no son separables linealmente . ^[27]

Otras redes de avance

Ejemplos de otras redes feedforward incluyen redes neuronales convolucionales y redes de función de base radial , que utilizan una función de activación diferente.

Ver también

Referencias

^ Ferrie, C. y Kaiser, S. (2019). Redes neuronales para bebés . Libros de consulta. ISBN 978-1492671206.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ ab Zell, Andreas (1994). Simulación Neuronaler Netze [ Simulación de redes neuronales ] (en alemán) (1ª ed.). Addison-Wesley. pag. 73.ISBN 3-89319-554-8.
^ Schmidhuber, Jürgen (1 de enero de 2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes neuronales . 61 : 85-117. arXiv : 1404.7828 . doi :10.1016/j.neunet.2014.09.003. ISSN 0893-6080. PMID 25462637. S2CID 11715509.
^ ab Linnainmaa, Seppo (1970). La representación del error de redondeo acumulativo de un algoritmo como una expansión de Taylor de los errores de redondeo locales (Masters) (en finlandés). Universidad de Helsinki. pag. 6–7.
^ Kelley, Henry J. (1960). "Teoría del gradiente de rutas de vuelo óptimas". Diario ARS . 30 (10): 947–954. doi : 10.2514/8.5282.
^ Rosenblatt, Frank. X. Principios de la neurodinámica: perceptrones y teoría de los mecanismos cerebrales. Libros espartanos, Washington DC, 1961
^ ab Werbos, Paul (1982). «Aplicaciones de los avances en análisis de sensibilidad no lineal» (PDF) . Modelado y optimización de sistemas . Saltador. págs. 762–770. Archivado (PDF) desde el original el 14 de abril de 2016 . Consultado el 2 de julio de 2017 .
^ ab Rumelhart, David E., Geoffrey E. Hinton y RJ Williams. "Aprendiendo representaciones internas por propagación de errores". David E. Rumelhart, James L. McClelland y el grupo de investigación PDP. (editores), Procesamiento distribuido paralelo: Exploraciones en la microestructura de la cognición, Volumen 1: Fundación. Prensa del MIT, 1986.
^ Hastie, Trevor. Tibshirani, Robert. Friedman, Jerónimo. Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Springer, Nueva York, Nueva York, 2009.
^ McCulloch, Warren S.; Pitts, Walter (1 de diciembre de 1943). "Un cálculo lógico de las ideas inmanentes a la actividad nerviosa". El Boletín de Biofísica Matemática . 5 (4): 115-133. doi :10.1007/BF02478259. ISSN 1522-9602.
^ Rosenblatt, Frank (1958). "El perceptrón: un modelo probabilístico para el almacenamiento y organización de información en el cerebro". Revisión psicológica . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . doi :10.1037/h0042519. PMID 13602029. S2CID 12781225.
^ Rosenblatt, Frank (1962). Principios de neurodinámica . Espartano, Nueva York.
^ Ivakhnenko, AG (1973). Dispositivos cibernéticos de predicción. Corporación de Información CCM.
^ Ivakhnenko, AG ; Grigorevich Lapa, Valentin (1967). Cibernética y técnicas de previsión. Pub americano Elsevier. Co.
^ abc Schmidhuber, Jürgen (2022). "Historia comentada de la IA moderna y el aprendizaje profundo". arXiv : 2212.11279 [cs.NE].
^ Amari, Shun'ichi (1967). "Una teoría del clasificador de patrones adaptativos". Transacciones IEEE . CE (16): 279-307.
^ Linnainmaa, Seppo (1976). "Expansión de Taylor del error de redondeo acumulado". BIT Matemáticas Numéricas . 16 (2): 146–160. doi :10.1007/bf01931367. S2CID 122357351.
^ Anderson, James A.; Rosenfeld, Edward, eds. (2000). Redes parlantes: una historia oral de las redes neuronales. La prensa del MIT. doi : 10.7551/mitpress/6626.003.0016. ISBN 978-0-262-26715-1.
^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (octubre de 1986). "Aprendizaje de representaciones mediante errores de retropropagación". Naturaleza . 323 (6088): 533–536. Código Bib :1986Natur.323..533R. doi :10.1038/323533a0. ISSN 1476-4687.
^ Bengio, Yoshua; Ducharme, Réjean; Vicente, Pascal; Janvin, Christian (marzo de 2003). "Un modelo de lenguaje probabilístico neuronal". La revista de investigación sobre aprendizaje automático . 3 : 1137-1155.
^ Haykin, Simón (1998). Redes neuronales: una base integral (2 ed.). Prentice Hall. ISBN 0-13-273350-1.
^ Merriman, Mansfield. Una lista de escritos relacionados con el método de mínimos cuadrados: con notas históricas y críticas . vol. 4. Academia, 1877.
^ Stigler, Stephen M. (1981). "Gauss y la invención de los mínimos cuadrados". Ana. Estadística . 9 (3): 465–474. doi : 10.1214/aos/1176345451 .
^ Bretscher, Otto (1995). Álgebra lineal con aplicaciones (3ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.
^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Cambridge: Harvard. ISBN 0-674-40340-1.
^ Auer, Pedro; Harald Burgsteiner; Wolfgang Maass (2008). "Una regla de aprendizaje para aproximadores universales muy simples que constan de una sola capa de perceptrones" (PDF) . Redes neuronales . 21 (5): 786–795. doi :10.1016/j.neunet.2007.12.036. PMID 18249524. Archivado desde el original (PDF) el 6 de julio de 2011 . Consultado el 8 de septiembre de 2009 .
^ Cybenko, G. 1989. Aproximación por superposiciones de una función sigmoidea Matemáticas de control, señales y sistemas , 2(4), 303–314.

enlaces externos

Tutorial de redes neuronales feedforward
Red neuronal de avance: ejemplo
Redes neuronales feedforward: una introducción