Perceptrón multicapa

Un perceptrón multicapa ( MLP ) es el nombre de una red neuronal artificial de avance moderno , que consta de neuronas completamente conectadas con un tipo de función de activación no lineal, organizada en al menos tres capas, que se destaca por ser capaz de distinguir datos que no son separables linealmente . ^[1] Es un nombre inapropiado porque el perceptrón original usaba una función de paso de Heaviside , en lugar de un tipo de función de activación no lineal (utilizada por las redes modernas).

Las redes feedforward modernas se entrenan utilizando el método de retropropagación ^[2]^[3]^[4]^[5]^[6] y se las conoce coloquialmente como redes neuronales "vainilla". ^[7]

Línea de tiempo

En 1958 , Frank Rosenblatt ya introdujo en su libro Perceptron una red de perceptrones en capas, que constaba de una capa de entrada, una capa oculta con pesos aleatorios que no aprendían y una capa de salida con conexiones de aprendizaje. ^[8]^[9]^[10] Esta máquina de aprendizaje extremo ^[11]^[10] aún no era una red de aprendizaje profundo .

En 1965, Alexey Grigorevich Ivakhnenko y Valentin Lapa publicaron la primera red feedforward de aprendizaje profundo , que aún no utilizaba el descenso de gradiente estocástico , en ese momento llamada Método grupal de manejo de datos . ^[12]^[13]^[10]

En 1967 , Shun'ichi Amari publicó una red de aprendizaje profundo, que utilizaba por primera vez el descenso de gradiente estocástico , capaz de clasificar clases de patrones separables no linealmente. ^[14] Saito, estudiante de Amari, llevó a cabo los experimentos informáticos, utilizando una red de avance de cinco capas con dos capas de aprendizaje.

En 1970, el investigador finlandés Seppo Linnainmaa publicó por primera vez el método moderno de retropropagación , una aplicación eficiente de un aprendizaje supervisado basado en reglas de cadena , ^[15]^[16] . ^[2]^[17]^[10] El propio término (es decir, "errores de retropropagación") ha sido utilizado por el propio Rosenblatt, ^[9] pero no sabía cómo implementarlo, ^[10] aunque es un precursor continuo de la retropropagación. Ya fue utilizado en el contexto de la teoría del control en 1960 por Henry J. Kelley . ^[3]^[10] También se conoce como modo inverso de diferenciación automática .

En 1982, Paul Werbos aplicó por primera vez la retropropagación de la forma que se ha convertido en estándar . ^[5]^[10]

En 1985, David E. Rumelhart et al. realizaron un análisis experimental de la técnica . ^[6] Se han realizado muchas mejoras en el enfoque en las décadas siguientes, ^[10] .

En la década de 1990, Vladimir Vapnik y sus colegas desarrollaron una alternativa (mucho más simple) al uso de redes neuronales, aunque todavía relacionada ^{[18] con el enfoque} de máquina de vectores de soporte . Además de realizar una clasificación lineal , pudieron realizar de manera eficiente una clasificación no lineal utilizando lo que se llama el truco del núcleo , utilizando espacios de características de alta dimensión .

En 2003, el interés en las redes de retropropagación volvió debido a los éxitos del aprendizaje profundo aplicado al modelado del lenguaje por Yoshua Bengio y sus coautores. ^[19]

En 2017, se introdujeron arquitecturas de transformadores modernas. ^[20] ^[21]

En 2021, se diseñó y denominó MLP-Mixer una arquitectura NN muy simple que combina dos MLP profundos con conexiones de salto y normalizaciones de capas; Se demostró que sus realizaciones con entre 19 y 431 millones de parámetros son comparables a transformadores de visión de tamaño similar en ImageNet y tareas similares de clasificación de imágenes . ^[22]

Fundamentos matemáticos

Función de activación

Si un perceptrón multicapa tiene una función de activación lineal en todas las neuronas, es decir, una función lineal que asigna las entradas ponderadas a la salida de cada neurona, entonces el álgebra lineal muestra que cualquier número de capas se puede reducir a una entrada de dos capas. modelo de salida. En las MLP, algunas neuronas utilizan una función de activación no lineal que se desarrolló para modelar la frecuencia de los potenciales de acción , o disparos, de las neuronas biológicas.

Las dos funciones de activación históricamente comunes son ambas sigmoideas y se describen por

y(v_{i})=\tanh(v_{i})~~{\textrm {and}}~~y(v_{i})=(1+e^{-v_{i}})^{-1}

La primera es una tangente hiperbólica que varía de −1 a 1, mientras que la otra es la función logística , que tiene una forma similar pero varía de 0 a 1. Aquí está la salida del nodo (neurona) y es la suma ponderada. de las conexiones de entrada. Se han propuesto funciones de activación alternativas, incluidas las funciones rectificador y softplus . Las funciones de activación más especializadas incluyen funciones de base radial (utilizadas en redes de base radial , otra clase de modelos de redes neuronales supervisadas). $y_{i}$ $i$ $v_{i}$

En desarrollos recientes del aprendizaje profundo, la unidad lineal rectificada (ReLU) se utiliza con mayor frecuencia como una de las posibles formas de superar los problemas numéricos relacionados con los sigmoideos.

Capas

El MLP consta de tres o más capas (una capa de entrada y una de salida con una o más capas ocultas ) de nodos que se activan de forma no lineal. Dado que los MLP están completamente conectados, cada nodo de una capa se conecta con un peso determinado a cada nodo de la siguiente capa. $w_{ij}$

Aprendiendo

El aprendizaje se produce en el perceptrón al cambiar los pesos de las conexiones después de procesar cada dato, en función de la cantidad de error en la salida en comparación con el resultado esperado. Este es un ejemplo de aprendizaje supervisado , y se lleva a cabo mediante retropropagación , una generalización del algoritmo de mínimos cuadrados medios en el perceptrón lineal.

Podemos representar el grado de error en un nodo de salida en el enésimo punto de datos (ejemplo de entrenamiento) mediante , donde es el valor objetivo deseado para el enésimo punto de datos en el nodo y es el valor producido por el perceptrón en el nodo cuando el enésimo punto de datos se da como entrada. $j$ $n$ $e_{j}(n)=d_{j}(n)-y_{j}(n)$ $d_{j}(n)$ $n$ $j$ $y_{j}(n)$ $j$ $n$

Luego, los pesos de los nodos se pueden ajustar en función de correcciones que minimicen el error en toda la salida para el punto de datos, dado por $n$

{\mathcal {E}}(n)={\frac {1}{2}}\sum _{{\text{output node }}j}e_{j}^{2}(n)

Usando el descenso de gradiente , el cambio en cada peso es $w_{ij}$

\Delta w_{ji}(n)=-\eta {\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}y_{i}(n)

donde es la salida de la neurona anterior , y es la tasa de aprendizaje , que se selecciona para asegurar que los pesos converjan rápidamente a una respuesta, sin oscilaciones. En la expresión anterior, denota la derivada parcial del error según la suma ponderada de las conexiones de entrada de la neurona . $y_{i}(n)$ $i$ $\eta$ ${\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}$ ${\mathcal {E}}(n)$ $v_{j}(n)$ $i$

La derivada a calcular depende del campo local inducido , que a su vez varía. Es fácil demostrar que para un nodo de salida esta derivada se puede simplificar a $v_{j}$

-{\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}=e_{j}(n)\phi ^{\prime }(v_{j}(n))

donde es la derivada de la función de activación descrita anteriormente, que a su vez no varía. El análisis es más difícil para el cambio de pesos a un nodo oculto, pero se puede demostrar que la derivada relevante es $\phi ^{\prime }$

-{\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}=\phi ^{\prime }(v_{j}(n))\sum _{k}-{\frac {\partial {\mathcal {E}}(n)}{\partial v_{k}(n)}}w_{kj}(n)

Esto depende del cambio en los pesos de los nodos ésimos, que representan la capa de salida. Entonces, para cambiar los pesos de la capa oculta, los pesos de la capa de salida cambian según la derivada de la función de activación, por lo que este algoritmo representa una propagación hacia atrás de la función de activación. ^[23] $k$

Referencias

^ Cybenko, G. 1989. Aproximación por superposiciones de una función sigmoidea Matemáticas de control, señales y sistemas , 2(4), 303–314.
^ ab Linnainmaa, Seppo (1970). La representación del error de redondeo acumulativo de un algoritmo como una expansión de Taylor de los errores de redondeo locales (Masters) (en finlandés). Universidad de Helsinki. págs. 6–7.
^ ab Kelley, Henry J. (1960). "Teoría del gradiente de rutas de vuelo óptimas". Diario ARS . 30 (10): 947–954. doi : 10.2514/8.5282.
^ Rosenblatt, Frank. X. Principios de la neurodinámica: perceptrones y la teoría de los mecanismos cerebrales. Libros espartanos, Washington DC, 1961
^ ab Werbos, Paul (1982). «Aplicaciones de los avances en análisis de sensibilidad no lineal» (PDF) . Modelado y optimización de sistemas . Saltador. págs. 762–770. Archivado (PDF) desde el original el 14 de abril de 2016 . Consultado el 2 de julio de 2017 .
^ ab Rumelhart, David E., Geoffrey E. Hinton y RJ Williams. "Aprendiendo representaciones internas por propagación de errores". David E. Rumelhart, James L. McClelland y el grupo de investigación PDP. (editores), Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición, Volumen 1: Fundación. Prensa del MIT, 1986.
^ Hastie, Trevor. Tibshirani, Robert. Friedman, Jerónimo. Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Springer, Nueva York, Nueva York, 2009.
^ Rosenblatt, Frank (1958). "El perceptrón: un modelo probabilístico para el almacenamiento y organización de información en el cerebro". Revisión psicológica . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . doi :10.1037/h0042519. PMID 13602029. S2CID 12781225.
^ ab Rosenblatt, Frank (1962). Principios de neurodinámica . Espartano, Nueva York.
^ abcdefgh Schmidhuber, Juergen (2022). "Historia comentada de la IA moderna y el aprendizaje profundo". arXiv : 2212.11279 [cs.NE].
^ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). "Máquina de aprendizaje extremo: teoría y aplicaciones". Neurocomputación . 70 (1): 489–501. CiteSeerX 10.1.1.217.3692 . doi : 10.1016/j.neucom.2005.12.126. S2CID 116858.
^ Ivakhnenko, AG (1973). Dispositivos cibernéticos de predicción. Corporación de Información CCM.
^ Ivakhnenko, AG ; Grigorevich Lapa, Valentin (1967). Cibernética y técnicas de previsión. Pub americano Elsevier. Co.
^ Amari, Shun'ichi (1967). "Una teoría del clasificador de patrones adaptativos". Transacciones IEEE . CE (16): 279–307.
^ Rodríguez, Omar Hernández; López Fernández, Jorge M. (2010). "Una reflexión semiótica sobre la didáctica de la regla de la cadena". El entusiasta de las matemáticas . 7 (2): 321–332. doi : 10.54870/1551-3440.1191 . S2CID 29739148 . Consultado el 4 de agosto de 2019 .
^ Leibniz, Gottfried Wilhelm Freiherr von (1920). Los primeros manuscritos matemáticos de Leibniz: traducidos de los textos latinos publicados por Carl Immanuel Gerhardt con notas críticas e históricas (Leibniz publicó la regla de la cadena en una memoria de 1676). Compañía editorial de corte abierta. ISBN 9780598818461.
^ Linnainmaa, Seppo (1976). "Expansión de Taylor del error de redondeo acumulado". BIT Matemáticas Numéricas . 16 (2): 146–160. doi :10.1007/bf01931367. S2CID 122357351.
^ R. Collobert y S. Bengio (2004). Vínculos entre perceptrones, MLP y SVM. Proc. Conferencia Internacional. sobre aprendizaje automático (ICML).
^ Bengio, Yoshua; Ducharme, Réjean; Vicente, Pascal; Janvin, Christian (marzo de 2003). "Un modelo de lenguaje probabilístico neuronal". La revista de investigación sobre aprendizaje automático . 3 : 1137-1155.
^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, León; Gómez, Aidan N; Káiser, Łukasz; Polosukhin, Illia (2017). "La atención es todo lo que necesitas". Avances en los sistemas de procesamiento de información neuronal . 30 . Curran asociados, Inc.
^ Geva, Mor; Schuster, Roei; Berant, Jonathan; Levy, Omer (2021). "Las capas de alimentación directa del transformador son recuerdos de valores clave". Actas de la Conferencia de 2021 sobre métodos empíricos en el procesamiento del lenguaje natural . págs. 5484–5495. doi : 10.18653/v1/2021.emnlp-main.446. S2CID 229923720.
^ "Papeles con código: MLP-Mixer: una arquitectura totalmente MLP para Vision".
^ Haykin, Simón (1998). Redes neuronales: una base integral (2 ed.). Prentice Hall. ISBN 0-13-273350-1.

enlaces externos

Weka: Software de minería de datos de código abierto con implementación de perceptrón multicapa.
La documentación de Neuroph Studio implementa este algoritmo y algunos otros.