Regla delta

En el aprendizaje automático , la regla delta es una regla de aprendizaje de descenso de gradiente para actualizar los pesos de las entradas a las neuronas artificiales en una red neuronal de una sola capa . ^[1] Se puede derivar como el algoritmo de retropropagación para una red neuronal de una sola capa con función de pérdida de error cuadrático medio.

Para una neurona con función de activación , la regla delta para el peso -ésimo de la neurona viene dada por ${\estilo de visualización j}$ ${\estilo de visualización g(x)}$ ${\estilo de visualización j}$ ${\estilo de visualización i}$ $estilo de visualización w_ {ji}}$

$\Delta w_{ji}=\alpha (t_{j}-y_{j})g'(h_{j})x_{i},$

dónde

${\estilo de visualización \alpha}$ es una pequeña constante llamada tasa de aprendizaje
${\estilo de visualización g(x)}$ es la función de activación de la neurona
${\estilo de visualización g'}$ es la derivada de ${\estilo de visualización g}$
$estilo de visualización t_ {j}}$ ¿Es la salida objetivo?
$estilo de visualización h_ {j}}$ es la suma ponderada de las entradas de la neurona
$estilo de visualización y_ {j}}$ es la salida real
$Estilo de visualización x_{i}}$ es la -ésima entrada. ${\estilo de visualización i}$

Se sostiene que y . ${\textstyle h_{j}=\sum _{i}x_{i}w_{ji}}$ $y_{j}=g(h_{j})$

La regla delta se enuncia comúnmente en forma simplificada para una neurona con una función de activación lineal como $\Delta w_{ji}=\alpha \left(t_{j}-y_{j}\right)x_{i}$

Si bien la regla delta es similar a la regla de actualización del perceptrón , la derivación es diferente. El perceptrón utiliza la función de paso de Heaviside como función de activación , lo que significa que no existe en cero y es igual a cero en cualquier otro lugar, lo que hace imposible la aplicación directa de la regla delta. ${\estilo de visualización g(h)}$ $g'(h)$

Derivación de la regla delta

La regla delta se deriva del intento de minimizar el error en la salida de la red neuronal a través del descenso del gradiente . El error de una red neuronal con salidas se puede medir como ${\estilo de visualización j}$ $E=\sum _{j}{\tfrac {1}{2}}\left(t_{j}-y_{j}\right)^{2}.$

En este caso, queremos movernos a través del "espacio de pesos" de la neurona (el espacio de todos los valores posibles de todos los pesos de la neurona) en proporción al gradiente de la función de error con respecto a cada peso. Para ello, calculamos la derivada parcial del error con respecto a cada peso. Para el peso n, esta derivada se puede escribir como ${\estilo de visualización i}$ ${\frac {\partial E}{\partial w_{ji}}}.$

Como solo nos ocupamos de la neurona -ésima, podemos sustituir la fórmula de error anterior omitiendo la suma: ${\estilo de visualización j}$ ${\frac {\parcial E}{\parcial w_{ji}}}={\frac {\parcial }{\parcial w_{ji}}}\left[{\frac {1}{2}}\left(t_{j}-y_{j}\right)^{2}\right]$

A continuación usamos la regla de la cadena para dividir esto en dos derivadas: ${\frac {\partial E}{\partial w_{ji}}}={\frac {\partial \left({\frac {1}{2}}\left(t_{j}-y_{j}\right)^{2}\right)}{\partial y_{j}}}{\frac {\partial y_{j}}{\partial w_{ji}}}$

Para encontrar la derivada izquierda, simplemente aplicamos la regla de potencia y la regla de la cadena: ${\frac {\partial E}{\partial w_{ji}}}=-\left(t_{j}-y_{j}\right){\frac {\partial y_{j}}{\partial w_{ji}}}$

Para encontrar la derivada correcta, aplicamos nuevamente la regla de la cadena, esta vez diferenciando con respecto a la entrada total a , : $j$ $h_{j}$ ${\frac {\partial E}{\partial w_{ji}}}=-\left(t_{j}-y_{j}\right){\frac {\partial y_{j}}{\partial h_{j}}}{\frac {\partial h_{j}}{\partial w_{ji}}}$

Nótese que la salida de la neurona th, , es simplemente la función de activación de la neurona aplicada a la entrada de la neurona . Por lo tanto, podemos escribir la derivada de con respecto a simplemente como la primera derivada de : $j$ $y_{j}$ $g$ $h_{j}$ $y_{j}$ $h_{j}$ $g$ ${\frac {\partial E}{\partial w_{ji}}}=-\left(t_{j}-y_{j}\right)g'(h_{j}){\frac {\partial h_{j}}{\partial w_{ji}}}$

A continuación reescribimos el último término como la suma de todos los pesos de cada peso por su entrada correspondiente : $h_{j}$ $k$ $w_{jk}$ $x_{k}$ ${\frac {\partial E}{\partial w_{ji}}}=-\left(t_{j}-y_{j}\right)g'(h_{j})\;{\frac {\partial }{\partial w_{ji}}}\!\!\left[\sum _{i}x_{i}w_{ji}\right]$

Como solo nos interesa el peso n, el único término de la suma que es relevante es . Claramente, obtenemos la ecuación final para el gradiente: $i$ $x_{i}w_{ji}$ ${\frac {\partial (x_{i}w_{ji})}{\partial w_{ji}}}=x_{i}.$ ${\frac {\partial E}{\partial w_{ji}}}=-\left(t_{j}-y_{j}\right)g'(h_{j})x_{i}$

Como se señaló anteriormente, el descenso del gradiente nos indica que el cambio que se debe hacer para cada peso debe ser proporcional al gradiente. Si elegimos una constante de proporcionalidad y eliminamos el signo menos para poder mover el peso en la dirección negativa del gradiente y minimizar el error, llegamos a la ecuación deseada: $\alpha$ $\Delta w_{ji}=\alpha (t_{j}-y_{j})g'(h_{j})x_{i}.$

Véase también

Descenso de gradiente estocástico
Retropropagación
Modelo de Rescorla-Wagner : el origen de la regla delta

Referencias

^ Russell, Ingrid. "La regla delta". Universidad de Hartford. Archivado desde el original el 4 de marzo de 2016. Consultado el 5 de noviembre de 2012 .