El problema es que, en algunos casos, el gradiente se irá desvaneciendo a valores muy pequeños, impidiendo eficazmente el peso de cambiar su valor.
En el caso peor, esto puede impedir que la red neuronal continúe su entrenamiento.
La retropropagación permitió a los investigadores entrenar redes neuronales supervisadas profundas desde un inicio con muy poco éxito.
Esta sección se basa en el artículo On the difficulty of training Recurrent Neural Networks de Pascanu, Mikolov y Bengio.
El problema del gradiente que desaparece ya se presenta claramente cuando
, por lo que simplificamos nuestra notación al caso especial:
Entrenar la red requiere definir una función de pérdida a minimizar.
[Nota 1] entonces minimizarla mediante descenso de gradiente da como resultado
El problema del gradiente que desaparece/explota surge debido a multiplicaciones repetidas, de la forma
Para un ejemplo concreto, consideremos una red recurrente típica definida por
es la función sigmoide,[Nota 2] aplicada a cada coordenada del vector por separado, y
, la multiplicación anterior tiene una norma de operador acotada superiormente por
Este es el problema prototípico del gradiente que desaparece.
[Nota 3] Para el problema prototípico del gradiente que explota, el siguiente modelo es más claro.
Siguiendo a (Doya, 1993),[6] consideremos esta red recurrente de una sola neurona con activación sigmoide:
pequeño, la dinámica de la red se convierte en
es lo suficientemente grande como para que el sistema se haya estabilizado en uno de los puntos estables.
coloca el sistema muy cerca de un punto inestable, entonces una pequeña variación en
se mueva de un punto estable a otro.
sean ambos muy grandes, un caso del gradiente que explota.
coloca el sistema lejos de un punto inestable, entonces una pequeña variación en
no decae a cero ni explota hasta el infinito.
De hecho, es el único gradiente bien comportado, lo que explica por qué las investigaciones iniciales se centraron en aprender o diseñar sistemas de redes recurrentes que pudieran realizar cálculos a largo plazo (como devolver la primera entrada que ven al final de un episodio) modelando sus atractores estables.
[7] Para el caso general, la intuición sigue siendo válida (Figuras 3, 4 y 5).
[5] Continuemos usando la red de una sola neurona mencionada, fijando
, y consideremos una función de pérdida definida por
Esto produce un paisaje de pérdida bastante patológico: a medida que
desde arriba, la pérdida se aproxima a cero, pero tan pronto como
, la cuenca del atractor cambia y la pérdida salta a 0.50.
Una situación ligeramente más compleja se grafica en,[5] Figura 6.