stringtranslate.com

La regla de Oja

La regla de aprendizaje de Oja , o simplemente regla de Oja , llamada así por el científico informático finlandés Erkki Oja ( pronunciación finlandesa: [ˈojɑ] , AW-yuh ), es un modelo de cómo las neuronas en el cerebro o en redes neuronales artificiales cambian la fuerza de conexión, o aprenden, con el tiempo. Es una modificación de la regla de Hebb estándar que, a través de la normalización multiplicativa, resuelve todos los problemas de estabilidad y genera un algoritmo para el análisis de componentes principales . Esta es una forma computacional de un efecto que se cree que ocurre en las neuronas biológicas.

Teoría

La regla de Oja requiere una serie de simplificaciones para su obtención, pero en su forma final es demostrablemente estable, a diferencia de la regla de Hebb. Es un caso especial de neurona única del algoritmo hebbiano generalizado . Sin embargo, la regla de Oja también se puede generalizar de otras maneras con distintos grados de estabilidad y éxito.

Fórmula

Consideremos un modelo simplificado de una neurona que devuelve una combinación lineal de sus entradas x utilizando pesos presinápticos w :

La regla de Oja define el cambio en los pesos presinápticos w dada la respuesta de salida de una neurona a sus entradas x como

donde η es la tasa de aprendizaje que también puede cambiar con el tiempo. Nótese que los símbolos en negrita son vectores y n define una iteración de tiempo discreta. La regla también se puede aplicar a iteraciones continuas como

Derivación

La regla de aprendizaje más simple que se conoce es la regla de Hebb, que establece en términos conceptuales que las neuronas que se activan juntas se conectan entre sí . En forma de componentes como una ecuación diferencial, se escribe

,

o en forma escalar con n -dependencia implícita,

,

donde y ( x n ) es nuevamente la salida, esta vez explícitamente dependiente de su vector de entrada x .

La regla de Hebb tiene pesos sinápticos que se aproximan al infinito con una tasa de aprendizaje positiva. Podemos detener esto normalizando los pesos de modo que la magnitud de cada peso esté restringida entre 0, que corresponde a ningún peso, y 1, que corresponde a ser la única neurona de entrada con algún peso. Para ello, normalizamos el vector de pesos para que tenga una longitud de uno:

.

Obsérvese que en el artículo original de Oja, [1] p = 2 , correspondiente a la cuadratura (raíz de la suma de los cuadrados), que es la conocida regla de normalización cartesiana . Sin embargo, cualquier tipo de normalización, incluso lineal, dará el mismo resultado sin pérdida de generalidad .

Para una tasa de aprendizaje pequeña, la ecuación se puede expandir como una serie de potencias en . [1]

.

Para valores pequeños de η , nuestros términos de orden superior O ( η 2 ) tienden a cero. Nuevamente hacemos la especificación de una neurona lineal, es decir, la salida de la neurona es igual a la suma del producto de cada entrada y su peso sináptico elevado a la potencia de p-1 , que en el caso de p = 2 es el peso sináptico en sí mismo, o

.

También especificamos que nuestros pesos se normalizan a 1 , lo que será una condición necesaria para la estabilidad, por lo que

,

que, cuando se sustituye en nuestra expansión, da la regla de Oja, o

.

Estabilidad y PCA

Al analizar la convergencia de una sola neurona que evoluciona según la regla de Oja, se extrae el primer componente principal , o característica, de un conjunto de datos. Además, con extensiones que utilizan el algoritmo hebbiano generalizado , se puede crear una red neuronal multi-Oja que puede extraer tantas características como se desee, lo que permite el análisis de componentes principales .

Se extrae un componente principal a j de un conjunto de datos x a través de algún vector asociado q j , o a j = q jx , y podemos restaurar nuestro conjunto de datos original tomando

.

En el caso de una sola neurona entrenada por la regla de Oja, encontramos que el vector de peso converge a q 1 , o el primer componente principal, a medida que el tiempo o el número de iteraciones se acerca al infinito. También podemos definir, dado un conjunto de vectores de entrada X i , que su matriz de correlación R ij = X i X j tiene un vector propio asociado dado por q j con valor propio λ j . La varianza de las salidas de nuestra neurona Oja σ 2 ( n ) = ⟨y 2 ( n )⟩ converge entonces con las iteraciones de tiempo al valor propio principal, o

.

Estos resultados se derivan mediante el análisis de funciones de Lyapunov y muestran que la neurona de Oja necesariamente converge estrictamente en el primer componente principal si se cumplen ciertas condiciones en nuestra regla de aprendizaje original. Lo más importante es que nuestra tasa de aprendizaje η puede variar con el tiempo, pero solo de manera que su suma sea divergente pero su suma de potencias sea convergente , es decir

.

Nuestra función de activación de salida y ( x ( n )) también puede ser no lineal y no estática, pero debe ser continuamente diferenciable tanto en x como en w y tener derivadas acotadas en el tiempo. [2]

Aplicaciones

La regla de Oja fue descrita originalmente en el artículo de Oja de 1982, [1] pero el principio de autoorganización al que se aplica se atribuye por primera vez a Alan Turing en 1952. [2] El PCA también ha tenido una larga historia de uso antes de que la regla de Oja formalizase su uso en computación de redes en 1989. Por lo tanto, el modelo se puede aplicar a cualquier problema de mapeo autoorganizado , en particular aquellos en los que la extracción de características es de interés principal. Por lo tanto, la regla de Oja tiene un lugar importante en el procesamiento de imágenes y voz. También es útil ya que se expande fácilmente a dimensiones superiores de procesamiento, pudiendo así integrar múltiples salidas rápidamente. Un ejemplo canónico es su uso en visión binocular . [3]

Biología y la regla del subespacio de Oja

Hay evidencia clara de potenciación y depresión a largo plazo en redes neuronales biológicas, junto con un efecto de normalización tanto en pesos de entrada como en salidas neuronales. Sin embargo, aunque todavía no hay evidencia experimental directa de que la regla de Oja esté activa en una red neuronal biológica, es posible una derivación biofísica de una generalización de la regla. Tal derivación requiere señalización retrógrada desde la neurona postsináptica, que es biológicamente plausible (ver retropropagación neuronal ), y toma la forma de

donde como antes w ij es el peso sináptico entre la i ésima neurona de entrada y la j ésima neurona de salida, x es la entrada, y es la salida postsináptica, y definimos ε como una constante análoga a la tasa de aprendizaje, y c pre y c post son funciones presinápticas y postsinápticas que modelan el debilitamiento de las señales con el tiempo. Nótese que los corchetes angulares denotan el promedio y el operador ∗ es una convolución . Al tomar las funciones pre y postsinápticas en el espacio de frecuencia y combinar los términos de integración con la convolución, encontramos que esto da una generalización de dimensión arbitraria de la regla de Oja conocida como Subespacio de Oja , [4] a saber

[5]


Véase también

Referencias

  1. ^ abc Oja, Erkki (noviembre de 1982). "Modelo neuronal simplificado como analizador de componentes principales". Revista de biología matemática . 15 (3): 267–273. doi :10.1007/BF00275687. PMID  7153672. S2CID  16577977. BF00275687.
  2. ^ ab Haykin, Simon (1998). Redes neuronales: una base integral (2.ª ed.). Prentice Hall. ISBN 978-0-13-273350-2.
  3. ^ Intrator, Nathan (2007). "Unsupervised Learning". Conferencias sobre computación neuronal . Universidad de Tel Aviv . Consultado el 22 de noviembre de 2007 .
  4. ^ Oja, Erkki (1989). "Redes neuronales, componentes principales y subespacios". Revista internacional de sistemas neuronales . 1 (1): 61–68. doi :10.1142/S0129065789000475.
  5. ^ Friston, KJ; CD Frith; RSJ Frackowiak (22 de octubre de 1993). "Algoritmos de aprendizaje de análisis de componentes principales: un análisis neurobiológico". Actas: Ciencias biológicas . 254 (1339): 47–54. Bibcode :1993RSPSB.254...47F. doi :10.1098/rspb.1993.0125. JSTOR  49565. PMID  8265675. S2CID  42179377.

Enlaces externos