stringtranslate.com

Regla delta

En el aprendizaje automático , la regla delta es una regla de aprendizaje de descenso de gradiente para actualizar los pesos de las entradas a las neuronas artificiales en una red neuronal de una sola capa . [1] Se puede derivar como el algoritmo de retropropagación para una red neuronal de una sola capa con función de pérdida de error cuadrático medio.

Para una neurona con función de activación , la regla delta para el peso -ésimo de la neurona viene dada por

dónde

Se sostiene que y .

La regla delta se enuncia comúnmente en forma simplificada para una neurona con una función de activación lineal como

Si bien la regla delta es similar a la regla de actualización del perceptrón , la derivación es diferente. El perceptrón utiliza la función de paso de Heaviside como función de activación , lo que significa que no existe en cero y es igual a cero en cualquier otro lugar, lo que hace imposible la aplicación directa de la regla delta.

Derivación de la regla delta

La regla delta se deriva del intento de minimizar el error en la salida de la red neuronal a través del descenso del gradiente . El error de una red neuronal con salidas se puede medir como

En este caso, queremos movernos a través del "espacio de pesos" de la neurona (el espacio de todos los valores posibles de todos los pesos de la neurona) en proporción al gradiente de la función de error con respecto a cada peso. Para ello, calculamos la derivada parcial del error con respecto a cada peso. Para el peso n, esta derivada se puede escribir como

Como solo nos ocupamos de la neurona -ésima, podemos sustituir la fórmula de error anterior omitiendo la suma:

A continuación usamos la regla de la cadena para dividir esto en dos derivadas:

Para encontrar la derivada izquierda, simplemente aplicamos la regla de potencia y la regla de la cadena:

Para encontrar la derivada correcta, aplicamos nuevamente la regla de la cadena, esta vez diferenciando con respecto a la entrada total a , :

Nótese que la salida de la neurona th, , es simplemente la función de activación de la neurona aplicada a la entrada de la neurona . Por lo tanto, podemos escribir la derivada de con respecto a simplemente como la primera derivada de :

A continuación reescribimos el último término como la suma de todos los pesos de cada peso por su entrada correspondiente :

Como solo nos interesa el peso n, el único término de la suma que es relevante es . Claramente, obtenemos la ecuación final para el gradiente:

Como se señaló anteriormente, el descenso del gradiente nos indica que el cambio que se debe hacer para cada peso debe ser proporcional al gradiente. Si elegimos una constante de proporcionalidad y eliminamos el signo menos para poder mover el peso en la dirección negativa del gradiente y minimizar el error, llegamos a la ecuación deseada:

Véase también

Referencias

  1. ^ Russell, Ingrid. "La regla delta". Universidad de Hartford. Archivado desde el original el 4 de marzo de 2016. Consultado el 5 de noviembre de 2012 .