El gobierno de Oja

La regla de aprendizaje de Oja , o simplemente la regla de Oja , que lleva el nombre del informático finlandés Erkki Oja ( pronunciación finlandesa: [ˈojɑ] , AW-yuh ), es un modelo de cómo las neuronas en el cerebro o en las redes neuronales artificiales cambian la fuerza de la conexión, o aprenden, con el tiempo. Es una modificación de la Regla de Hebb estándar (ver Aprendizaje hebbiano ) que, mediante la normalización multiplicativa, resuelve todos los problemas de estabilidad y genera un algoritmo para el análisis de componentes principales . Esta es una forma computacional de un efecto que se cree que ocurre en las neuronas biológicas.

Teoría

La regla de Oja requiere una serie de simplificaciones para derivarse, pero en su forma final es demostrablemente estable, a diferencia de la regla de Hebb. Es un caso especial de una sola neurona del algoritmo hebbiano generalizado . Sin embargo, el gobierno de Oja también se puede generalizar de otras maneras con distintos grados de estabilidad y éxito.

Fórmula

Considere un modelo simplificado de una neurona que devuelve una combinación lineal de sus entradas $x$ usando pesos presinápticos $w$ : $y$

$\,y(\mathbf {x} )~=~\sum _ {j=1}^{m}x_ {j}w_ {j}$

La regla de Oja define el cambio en los pesos presinápticos $w$ dada la respuesta de salida de una neurona a sus entradas $x$ como $y$

\,\Delta \mathbf {w} ~=~\mathbf {w} _{n+1}-\mathbf {w} _{n}~=~\eta \,y_{n}(\mathbf {x} _{n} -y_ {n}\mathbf {w} _{n}),

donde $η$ es la tasa de aprendizaje que también puede cambiar con el tiempo. Tenga en cuenta que los símbolos en negrita son vectores y $n$ define una iteración de tiempo discreta. La regla también se puede hacer para iteraciones continuas como

\,{\frac {d\mathbf {w} }{dt}}~=~\eta \,y(t)(\mathbf {x} (t)-y(t)\mathbf {w} (t)).

Derivación

La regla de aprendizaje más simple que se conoce es la regla de Hebb, que establece en términos conceptuales que las neuronas que se activan juntas, se conectan entre sí . En forma de componentes como ecuación en diferencias, se escribe

\,\Delta \mathbf {w} ~=~\eta \,y(\mathbf {x} _{n})\mathbf {x} _{n}

o en forma escalar con $n$ -dependencia implícita,

\,w_{i}(n+1)~=~w_{i}(n)+\eta \,y(\mathbf {x} )x_{i}

donde $y (x n)$ es nuevamente la salida, esta vez explícitamente dependiente de su vector de entrada $x$ .

La regla de Hebb tiene pesos sinápticos que se acercan al infinito con una tasa de aprendizaje positiva. Podemos detener esto normalizando los pesos para que la magnitud de cada peso esté restringida entre 0, correspondiente a ningún peso, y 1, correspondiente a ser la única neurona de entrada con algún peso. Hacemos esto normalizando el vector de peso para que tenga longitud uno:

\,w_{i}(n+1)~=~{\frac {w_{i}(n)+\eta \,y(\mathbf {x} )x_{i}}{\left(\sum _{j=1}^{m}[w_{j}(n)+\eta \,y(\mathbf {x} )x_{j}]^{p}\right)^{1/p}}}

Tenga en cuenta que en el artículo original de Oja, ^[1] $p =2$ , correspondiente a la cuadratura (raíz de suma de cuadrados), que es la conocida regla de normalización cartesiana . Sin embargo, cualquier tipo de normalización, incluso lineal, dará el mismo resultado sin pérdida de generalidad .

Para una tasa de aprendizaje pequeña, la ecuación se puede expandir como una serie de potencias en . ^[1] $|\eta |\ll 1$ $\eta$

\,w_{i}(n+1)~=~{\frac {w_{i}(n)}{\left(\sum _{j}w_{j}^{p}(n)\right)^{1/p}}}~+~\eta \left({\frac {yx_{i}}{\left(\sum _{j}w_{j}^{p}(n)\right)^{1/p}}}-{\frac {w_{i}(n)\sum _{j}yx_{j}w_{j}^{p-1}(n)}{\left(\sum _{j}w_{j}^{p}(n)\right)^{(1+1/p)}}}\right)~+~O(\eta ^{2})

Para $η$ pequeño , nuestros términos de orden superior $O (η 2)$ van a cero. Nuevamente hacemos la especificación de una neurona lineal, es decir, la salida de la neurona es igual a la suma del producto de cada entrada y su peso sináptico elevado a $p-1$ , que en el caso de $p =2$ es peso sináptico en sí, o

\,y(\mathbf {x} )~=~\sum _{j=1}^{m}x_{j}w_{j}^{p-1}

También especificamos que nuestros pesos se normalizan a $1$ , lo cual será una condición necesaria para la estabilidad, por lo que

\,|\mathbf {w} |~=~\left(\sum _{j=1}^{m}w_{j}^{p}\right)^{1/p}~=~1

que, cuando se sustituye en nuestra expansión, da el gobierno de Oja, o

\,w_{i}(n+1)~=~w_{i}(n)+\eta \,y(x_{i}-w_{i}(n)y)

Estabilidad y PCA

Al analizar la convergencia de una sola neurona que evoluciona según la regla de Oja, se extrae el primer componente o característica principal de un conjunto de datos. Además, con extensiones que utilizan el algoritmo hebbiano generalizado , se puede crear una red neuronal multi-Oja que puede extraer tantas características como se desee, lo que permite el análisis de componentes principales .

Un componente principal $a j$ se extrae de un conjunto de datos $x$ a través de algún vector asociado $q j$ , o $a j = q j \cdot x$ , y podemos restaurar nuestro conjunto de datos original tomando

\mathbf {x} ~=~\sum _{j}a_{j}\mathbf {q} _{j}

En el caso de una sola neurona entrenada según la regla de Oja, encontramos que el vector de peso converge a $q 1$ , o el primer componente principal, a medida que el tiempo o el número de iteraciones se acerca al infinito. También podemos definir, dado un conjunto de vectores de entrada $X i$ , que su matriz de correlación $Rij$ $= X i X j tiene$ un vector propio asociado dado por $q j$ con valor propio $λ j$ . La varianza de las salidas de nuestra neurona Oja $σ 2 (n) = ⟨y 2 (n)⟩$ luego converge con iteraciones de tiempo al valor propio principal, o

\lim _{n\rightarrow \infty }\sigma ^{2}(n)~=~\lambda _{1}

Estos resultados se obtienen utilizando el análisis de la función de Lyapunov y muestran que la neurona de Oja necesariamente converge estrictamente en el primer componente principal si se cumplen ciertas condiciones en nuestra regla de aprendizaje original. Lo más importante es que nuestra tasa de aprendizaje $η$ puede variar con el tiempo, pero solo de manera que su suma sea divergente pero su suma de potencias sea convergente , es decir

\sum _{n=1}^{\infty }\eta (n)=\infty ,~~~\sum _{n=1}^{\infty }\eta (n)^{p}<\infty ,~~~p>1

También se permite que nuestra función de activación de salida $y (x (n))$ sea no lineal y no estática, pero debe ser continuamente diferenciable tanto en $x$ como $en w$ y tener derivadas acotadas en el tiempo. ^[2]

Aplicaciones

La regla de Oja se describió originalmente en el artículo de Oja de 1982, ^[1] pero el principio de autoorganización al que se aplica se atribuye por primera vez a Alan Turing en 1952. ^[2] La PCA también ha tenido una larga historia de uso antes de que se formalizara la regla de Oja. su uso en computación de redes en 1989. Por lo tanto, el modelo se puede aplicar a cualquier problema de mapeo autoorganizado , en particular aquellos en los que la extracción de características es de principal interés. Por lo tanto, la regla de Oja tiene un lugar importante en el procesamiento de imágenes y del habla. También es útil ya que se expande fácilmente a dimensiones de procesamiento más altas, pudiendo así integrar múltiples resultados rápidamente. Un ejemplo canónico es su uso en visión binocular . ^[3]

La biología y el gobierno subespacial de Oja

Existe evidencia clara de una potenciación y depresión a largo plazo en las redes neuronales biológicas, junto con un efecto de normalización tanto en los pesos de entrada como en las salidas de las neuronas. Sin embargo, si bien todavía no hay evidencia experimental directa de que la regla de Oja esté activa en una red neuronal biológica, es posible una derivación biofísica de una generalización de la regla. Tal derivación requiere señalización retrógrada de la neurona postsináptica, lo cual es biológicamente plausible (ver retropropagación neuronal ), y toma la forma de

\Delta w_{ij}~\propto ~\langle x_{i}y_{j}\rangle -\epsilon \left\langle \left(c_{\mathrm {pre} }*\sum _{k}w_{ik}y_{k}\right)\cdot \left(c_{\mathrm {post} }*y_{j}\right)\right\rangle ,

donde, como antes, $w ij$ es el peso sináptico entre las neuronas de entrada $i$ y de salida $j ,$ $x$ es la entrada, $y$ es la salida postsináptica, y definimos $ε$ como una constante análoga a la tasa de aprendizaje, y $c pre$ y $c post.$ Son funciones presinápticas y postsinápticas que modelan el debilitamiento de las señales con el tiempo. Tenga en cuenta que los corchetes angulares indican el promedio y el operador ∗ es una convolución . Al llevar las funciones pre y postsinápticas al espacio de frecuencia y combinar términos de integración con la convolución, encontramos que esto da una generalización de dimensión arbitraria de la regla de Oja conocida como Subespacio de Oja , ^[4] a saber

\Delta w~=~Cx\cdot w-w\cdot Cy.

^[5]

Ver también

Referencias

^ abc Oja, Erkki (noviembre de 1982). "Modelo de neurona simplificado como analizador de componentes principales". Revista de biología matemática . 15 (3): 267–273. doi :10.1007/BF00275687. PMID 7153672. S2CID 16577977. BF00275687.
^ ab Haykin, Simon (1998). Redes neuronales: una base integral (2 ed.). Prentice Hall. ISBN 978-0-13-273350-2.
^ Intrator, Nathan (2007). "Aprendizaje no supervisado". Conferencias de Computación Neural . Universidad de Tel Aviv . Consultado el 22 de noviembre de 2007 .
^ Oja, Erkki (1989). "Redes neuronales, componentes principales y subespacios". Revista internacional de sistemas neuronales . 1 (1): 61–68. doi :10.1142/S0129065789000475.
^ Friston, KJ; CD Frith; RSJ Frackowiak (22 de octubre de 1993). "Algoritmos de aprendizaje de análisis de componentes principales: un análisis neurobiológico". Actas: Ciencias Biológicas . 254 (1339): 47–54. Código Bib : 1993RSPSB.254...47F. doi :10.1098/rspb.1993.0125. JSTOR 49565. PMID 8265675. S2CID 42179377.

Enlaces externos

Oja, Erkki: regla de aprendizaje de Oja en Scholarpedia
Oja, Erkki: Universidad Aalto