El descenso de gradiente estocástico (en inglés: Stochastic gradient descent, a menudo abreviado como SGD) es un método iterativo para optimizar una función objetivo con propiedades de suavidad adecuadas (por ejemplo, diferenciable o subdiferenciable).
Se pueden realizar varias pasadas por el conjunto de entrenamiento hasta que el algoritmo converja.
Las implementaciones típicas pueden utilizar una tasa de aprendizaje adaptativa para que el algoritmo converja.
disminuyen con una tasa apropiada, y sujeto a supuestos relativamente suaves, el descenso de gradiente estocástico converge casi seguro a un mínimo global cuando la función objetivo es convexa o pseudoconvexa, y en caso contrario converge casi con seguridad a un mínimo local.
La última línea del pseudocódigo anterior para este problema específico se convertirá en:
Nótese que en cada iteración (también llamada actualización), el gradiente sólo se evalúa en un único punto
[11] El descenso de gradiente estocástico compite con el algoritmo L-BFGS, que también es ampliamente utilizado.
[14] Spall ofrece orientación práctica sobre la elección del step size en diversas variantes de SGD.
Una convergencia rápida requiere grandes tasas de aprendizaje, pero esto puede inducir inestabilidad numérica.
El problema puede resolverse en gran medida[16] considerando actualizaciones implícitas en las que el gradiente estocástico se evalúa en la siguiente iterada en lugar de en la actual:
tiene grandes valores propios absolutos con alta probabilidad, el procedimiento puede divergir numéricamente en unas pocas iteraciones.
Este procedimiento se mantendrá numéricamente estable prácticamente para todas las
ya que la tasa de aprendizaje está ahora normalizada.
Los mínimos cuadrados obedecen esta regla, al igual que la regresión logística y la mayoría de los modelos lineales generalizados.
En estos casos, la ISGD se aplica de la siguiente manera.
es un factor de decaimiento exponencial entre 0 y 1 que determina la contribución relativa del gradiente actual y los gradientes anteriores al cambio de peso.
Los científicos informáticos llevan varias décadas utilizando con éxito el método del momentum en el entrenamiento de redes neuronales artificiales.
Es decir, la actualización es la misma que para el descenso estocástico ordinario, pero el algoritmo también lleva la cuenta de[24]
Esta estrategia suele mejorar el rendimiento de la convergencia con respecto al descenso por gradiente estocástico estándar en entornos en los que los datos son dispersos y los parámetros dispersos son más informativos.
[28] Adam[30] o estimación de momento adaptativo (en inglés: Adaptive Moment Estimation) es una actualización de 2014 del optimizador RMSProp que lo combina con la característica principal del método Momentum.
La profunda influencia de este algoritmo ha inspirado múltiples esquemas de optimización basados en el impulso más recientes y menos conocidos que utilizan gradientes mejorados por Nesterov (p.
[37] AdamW [38] es una actualización posterior que mitiga una elección no óptima del algoritmo de regresión contraída (en inglés: ridge regression) en Adam.
Aunque la optimización basada en signos se remonta al ya mencionado Rprop, solo en 2018 los investigadores intentaron simplificar Adam eliminando la magnitud del gradiente estocástico de ser tenido en cuenta y solo considerando su signo.
[39][40] La búsqueda lineal con retroceso (en inglés: Backtracking line search) es otra variante del descenso de gradiente.
Todos los datos que figuran a continuación proceden del enlace mencionado.
La SGD adaptativa no necesita un bucle para determinar las tasas de aprendizaje.
Sin embargo, determinar directamente las matrices hessianas necesarias para la optimización puede no ser posible en la práctica.
Spall y otros[42][43][44] presentan métodos prácticos y teóricamente sólidos para versiones de segundo orden de SGD que no requieren información directa sobre el hessiano.
(Un método menos eficiente basado en diferencias finitas, en lugar de perturbaciones simultáneas, es dado por Ruppert[45]).
El SGD fue desarrollado gradualmente por varios colectivos durante la década de 1950.