stringtranslate.com

regla delta

En el aprendizaje automático , la regla delta es una regla de aprendizaje de descenso de gradiente para actualizar los pesos de las entradas a las neuronas artificiales en una red neuronal de una sola capa . [1] Puede derivarse como el algoritmo de retropropagación para una red neuronal de una sola capa con función de pérdida de error cuadrático medio.

Para una neurona con función de activación , la regla delta para el peso -ésimo de la neurona viene dada por

dónde

Sostiene eso y .

La regla delta se expresa comúnmente en forma simplificada para una neurona con una función de activación lineal como

Si bien la regla delta es similar a la regla de actualización del perceptrón , la derivación es diferente. El perceptrón utiliza la función escalonada de Heaviside como función de activación , y eso significa que no existe en cero, y es igual a cero en otros lugares, lo que hace imposible la aplicación directa de la regla delta.

Derivación de la regla delta

La regla delta se deriva intentando minimizar el error en la salida de la red neuronal mediante el descenso de gradiente . El error de una red neuronal con salidas se puede medir como

En este caso, queremos movernos a través del "espacio de peso" de la neurona (el espacio de todos los valores posibles de todos los pesos de la neurona) en proporción al gradiente de la función de error con respecto a cada peso. Para ello calculamos la derivada parcial del error respecto de cada peso. Para el peso ésimo, esta derivada se puede escribir como

Debido a que solo nos ocupamos de la -ésima neurona, podemos sustituir la fórmula de error anterior omitiendo la suma:

A continuación usamos la regla de la cadena para dividir esto en dos derivadas:

Para encontrar la derivada izquierda, simplemente aplicamos la regla de la potencia y la regla de la cadena:

Para encontrar la derivada correcta, aplicamos nuevamente la regla de la cadena, esta vez diferenciando con respecto a la entrada total a ,:

Tenga en cuenta que la salida de la enésima neurona, es solo la función de activación de la neurona aplicada a la entrada de la neurona . Por lo tanto, podemos escribir la derivada de con respecto a simplemente como la primera derivada de:

A continuación, reescribimos el último término como la suma de todos los pesos de cada peso multiplicada por su entrada correspondiente :

Como solo nos interesa el peso ésimo, el único término de la suma que es relevante es . Claramente,

Como se señaló anteriormente, el descenso del gradiente nos dice que nuestro cambio para cada peso debe ser proporcional al gradiente. Al elegir una constante de proporcionalidad y eliminar el signo menos para permitirnos mover el peso en la dirección negativa del gradiente para minimizar el error, llegamos a nuestra ecuación objetivo:

Ver también

Referencias

  1. ^ Russell, Ingrid. "La regla Delta". Universidad de Hartford. Archivado desde el original el 4 de marzo de 2016 . Consultado el 5 de noviembre de 2012 .