regla delta

En el aprendizaje automático , la regla delta es una regla de aprendizaje de descenso de gradiente para actualizar los pesos de las entradas a las neuronas artificiales en una red neuronal de una sola capa . ^[1] Puede derivarse como el algoritmo de retropropagación para una red neuronal de una sola capa con función de pérdida de error cuadrático medio.

Para una neurona con función de activación , la regla delta para el peso -ésimo de la neurona viene dada por $j$ $g(x)$ $j$ $i$ $w_{ji}$

\Delta w_{ji}=\alpha (t_{j}-y_{j})g'(h_{j})x_{i},

dónde

$\alpha$ es una pequeña constante llamada tasa de aprendizaje
$g(x)$ es la función de activación de la neurona
$g'$ es la derivada de $g$
$t_{j}$ es la salida objetivo
${\ Displaystyle h_ {j}}$ es la suma ponderada de las entradas de la neurona
${\ Displaystyle y_ {j}}$ es la salida real
$x_{i}$ es la -ésima entrada. $i$

Sostiene eso y . ${\textstyle h_{j}=\sum _{i}x_{i}w_{ji}}$ ${\ Displaystyle y_ {j} = g (h_ {j})}$

La regla delta se expresa comúnmente en forma simplificada para una neurona con una función de activación lineal como

\Delta w_{ji}=\alpha \left(t_{j}-y_{j}\right)x_{i}

Si bien la regla delta es similar a la regla de actualización del perceptrón , la derivación es diferente. El perceptrón utiliza la función escalonada de Heaviside como función de activación , y eso significa que no existe en cero, y es igual a cero en otros lugares, lo que hace imposible la aplicación directa de la regla delta. $g(h)$ $g'(h)$

Derivación de la regla delta

La regla delta se deriva intentando minimizar el error en la salida de la red neuronal mediante el descenso de gradiente . El error de una red neuronal con salidas se puede medir como $j$

E=\sum _{j}{\tfrac {1}{2}}\left(t_{j}-y_{j}\right)^{2}.

En este caso, queremos movernos a través del "espacio de peso" de la neurona (el espacio de todos los valores posibles de todos los pesos de la neurona) en proporción al gradiente de la función de error con respecto a cada peso. Para ello calculamos la derivada parcial del error respecto de cada peso. Para el peso ésimo, esta derivada se puede escribir como $i$

{\frac {\partial E}{\partial w_{ji}}}.

Debido a que solo nos ocupamos de la -ésima neurona, podemos sustituir la fórmula de error anterior omitiendo la suma: $j$

{\frac {\partial E}{\partial w_{ji}}}={\frac {\partial }{\partial w_{ji}}}\left[{\frac {1}{2}} \left(t_{j}-y_{j}\right)^{2}\right]

A continuación usamos la regla de la cadena para dividir esto en dos derivadas:

{\frac {\partial E}{\partial w_{ji}}}={\frac {\partial \left({\frac {1}{2}}\left(t_{j}-y_{j}\right)^{2}\right)}{\partial y_{j}}}{\frac {\partial y_{j}}{\partial w_{ji}}}

Para encontrar la derivada izquierda, simplemente aplicamos la regla de la potencia y la regla de la cadena:

{\frac {\partial E}{\partial w_{ji}}}=-\left(t_{j}-y_{j}\right){\frac {\partial y_{j}}{\partial w_{ji}}}

Para encontrar la derivada correcta, aplicamos nuevamente la regla de la cadena, esta vez diferenciando con respecto a la entrada total a ,: $j$ $h_{j}$

{\frac {\partial E}{\partial w_{ji}}}=-\left(t_{j}-y_{j}\right){\frac {\partial y_{j}}{\partial h_{j}}}{\frac {\partial h_{j}}{\partial w_{ji}}}

Tenga en cuenta que la salida de la enésima neurona, es solo la función de activación de la neurona aplicada a la entrada de la neurona . Por lo tanto, podemos escribir la derivada de con respecto a simplemente como la primera derivada de: $j$ $y_{j}$ $g$ $h_{j}$ $y_{j}$ $h_{j}$ $g$

{\frac {\partial E}{\partial w_{ji}}}=-\left(t_{j}-y_{j}\right)g'(h_{j}){\frac {\partial h_{j}}{\partial w_{ji}}}

A continuación, reescribimos el último término como la suma de todos los pesos de cada peso multiplicada por su entrada correspondiente : $h_{j}$ $k$ $w_{jk}$ $x_{k}$

{\frac {\partial E}{\partial w_{ji}}}=-\left(t_{j}-y_{j}\right)g'(h_{j})\;{\frac {\partial }{\partial w_{ji}}}\!\!\left[\sum _{i}x_{i}w_{ji}\right]

Como solo nos interesa el peso ésimo, el único término de la suma que es relevante es . Claramente, $i$ $x_{i}w_{ji}$

{\frac {\partial (x_{i}w_{ji})}{\partial w_{ji}}}=x_{i}.

{\frac {\partial E}{\partial w_{ji}}}=-\left(t_{j}-y_{j}\right)g'(h_{j})x_{i}

Como se señaló anteriormente, el descenso del gradiente nos dice que nuestro cambio para cada peso debe ser proporcional al gradiente. Al elegir una constante de proporcionalidad y eliminar el signo menos para permitirnos mover el peso en la dirección negativa del gradiente para minimizar el error, llegamos a nuestra ecuación objetivo: $\alpha$

\Delta w_{ji}=\alpha (t_{j}-y_{j})g'(h_{j})x_{i}.

Ver también

Descenso de gradiente estocástico
Propagación hacia atrás
Modelo Rescorla-Wagner : el origen de la regla delta

Referencias

^ Russell, Ingrid. "La regla Delta". Universidad de Hartford. Archivado desde el original el 4 de marzo de 2016 . Consultado el 5 de noviembre de 2012 .