stringtranslate.com

Aproximación estocástica de perturbación simultánea

La aproximación estocástica de perturbación simultánea (SPSA) es un método algorítmico para optimizar sistemas con múltiples parámetros desconocidos . Es un tipo de algoritmo de aproximación estocástica . Como método de optimización, es adecuado para modelos de población a gran escala, modelado adaptativo, optimización de simulación y modelado atmosférico . Se presentan muchos ejemplos en el sitio web de SPSA http://www.jhuapl.edu/SPSA. Un libro completo sobre el tema es Bhatnagar et al. (2013). Uno de los primeros artículos sobre el tema es Spall (1987) y el artículo fundamental que proporciona la teoría clave y la justificación es Spall (1992).

SPSA es un método de descenso capaz de encontrar mínimos globales, compartiendo esta propiedad con otros métodos como el recocido simulado . Su característica principal es la aproximación de gradiente que requiere sólo dos mediciones de la función objetivo, independientemente de la dimensión del problema de optimización. Recuerde que queremos encontrar el control óptimo con función de pérdida :

Tanto la aproximación estocástica de diferencias finitas (FDSA) como SPSA utilizan el mismo proceso iterativo:

donde representa la iteración, es la estimación del gradiente de la función objetivo evaluada en y es una secuencia numérica positiva que converge a 0. Si es un vector p -dimensional, el componente del estimador de gradiente simétrico de diferencias finitas es:

FD:

1 ≤i ≤p , donde es el vector unitario con un 1 en su lugar, y es un número positivo pequeño que disminuye con n . Con este método, se necesitan evaluaciones 2p de J para cada uno . Cuando p es grande, este estimador pierde eficiencia.

Sea ahora un vector de perturbación aleatorio. El componente del estimador del gradiente de perturbación estocástico es:

SP:

Obsérvese que FD perturba sólo una dirección a la vez, mientras que el estimador SP perturba todas las direcciones al mismo tiempo (el numerador es idéntico en todos los componentes p ). El número de mediciones de la función de pérdida necesarias en el método SPSA para cada una es siempre 2, independientemente de la dimensión p . Por lo tanto, SPSA utiliza p veces menos evaluaciones de funciones que FDSA, lo que lo hace mucho más eficiente.

Experimentos simples con p=2 mostraron que SPSA converge en el mismo número de iteraciones que FDSA. Este último sigue aproximadamente la dirección de descenso más pronunciada , comportándose como el método de gradiente. Por otro lado, SPSA, con la dirección de búsqueda aleatoria, no sigue exactamente la ruta del gradiente. Sin embargo, en promedio, lo sigue casi porque la aproximación del gradiente es un estimador casi insesgado del gradiente, como se muestra en el siguiente lema.

Lema de convergencia

Denotamos por

el sesgo en el estimador . Supongamos que todos son mutuamente independientes con segundos momentos acotados, de media cero y uniformemente acotados. Entonces →0 wp 1.

Bosquejo de la prueba

La idea principal es usar el condicionamiento para expresar y luego usar una expansión de Taylor de segundo orden de y . Después de manipulaciones algebraicas usando la media cero y la independencia de , obtenemos

El resultado se deriva de la hipótesis de que →0.

A continuación resumimos algunas de las hipótesis bajo las cuales converge en probabilidad al conjunto de mínimos globales de . La eficiencia del método depende de la forma , los valores de los parámetros y la distribución de los términos de perturbación . Primero, los parámetros del algoritmo deben cumplir las siguientes condiciones:

Una buena opción es la distribución de Rademacher , es decir, Bernoulli +-1 con probabilidad de 0,5. También son posibles otras opciones, pero tenga en cuenta que las distribuciones uniforme y normal no se pueden utilizar porque no satisfacen las condiciones de momento inverso finito.

La función de pérdida J(u) debe ser tres veces continuamente diferenciable y los elementos individuales de la tercera derivada deben estar acotados: . Tambien como .

Además, Lipschitz debe ser continua, acotada y la EDO debe tener una solución única para cada condición inicial. Bajo estas condiciones y algunas otras, converge en probabilidad al conjunto de mínimos globales de J(u) (ver Maryak y Chin, 2008).

Se ha demostrado que no se requiere diferenciabilidad: la continuidad y la convexidad son suficientes para la convergencia. [1]

Extensión a métodos de segundo orden (Newton)

Se sabe que una versión estocástica del algoritmo estándar (determinista) de Newton-Raphson (un método de “segundo orden”) proporciona una forma asintóticamente óptima o casi óptima de aproximación estocástica. SPSA también se puede utilizar para estimar eficientemente la matriz de Hesse de la función de pérdida basándose en mediciones de pérdidas ruidosas o mediciones de gradientes ruidosos (gradientes estocásticos). Al igual que con el método SPSA básico, solo se necesita un pequeño número fijo de mediciones de pérdida o mediciones de gradiente en cada iteración, independientemente de la dimensión del problema p . Consulte la breve discusión en Descenso del gradiente estocástico .

Referencias

  1. ^ Él, Ying; Fu, Michael C.; Steven I., Marcus (agosto de 2003). "Convergencia de aproximación estocástica de perturbaciones simultáneas para optimización no diferenciable". Transacciones IEEE sobre control automático . 48 (8): 1459-1463. doi : 10.1109/TAC.2003.815008 . Consultado el 6 de marzo de 2022 .