stringtranslate.com

Aproximación estocástica de perturbación simultánea

La aproximación estocástica de perturbación simultánea (SPSA) es un método algorítmico para optimizar sistemas con múltiples parámetros desconocidos . Es un tipo de algoritmo de aproximación estocástica . Como método de optimización, es adecuado para modelos de población a gran escala, modelado adaptativo, optimización de simulación y modelado atmosférico . Se presentan muchos ejemplos en el sitio web de SPSA http://www.jhuapl.edu/SPSA. Un libro completo sobre el tema es Bhatnagar et al. (2013). Un artículo temprano sobre el tema es Spall (1987) y el artículo fundacional que proporciona la teoría clave y la justificación es Spall (1992).

SPSA es un método de descenso capaz de encontrar mínimos globales, compartiendo esta propiedad con otros métodos como el annealing simulado . Su característica principal es la aproximación por gradiente que requiere solo dos mediciones de la función objetivo, independientemente de la dimensión del problema de optimización. Recordemos que queremos encontrar el control óptimo con función de pérdida :

Tanto la aproximación estocástica de diferencias finitas (FDSA) como la SPSA utilizan el mismo proceso iterativo:

donde representa la iteración, es la estimación del gradiente de la función objetivo evaluada en , y es una secuencia de números positivos que converge a 0. Si es un vector p -dimensional, el componente del estimador de gradiente de diferencias finitas simétricas es:

Día de la Madre:

1 ≤i ≤p , donde es el vector unitario con un 1 en su lugar, y es un número positivo pequeño que disminuye con n . Con este método, se necesitan 2p evaluaciones de J para cada uno . Cuando p es grande, este estimador pierde eficiencia.

Sea ahora un vector de perturbación aleatorio. El componente del estimador de gradiente de perturbación estocástica es:

ES:

Observe que FD perturba solo una dirección a la vez, mientras que el estimador SP perturba todas las direcciones al mismo tiempo (el numerador es idéntico en todos los componentes p ). La cantidad de mediciones de la función de pérdida necesarias en el método SPSA para cada uno es siempre 2, independientemente de la dimensión p . Por lo tanto, SPSA utiliza p veces menos evaluaciones de funciones que FDSA, lo que lo hace mucho más eficiente.

Experimentos simples con p=2 mostraron que SPSA converge en el mismo número de iteraciones que FDSA. Este último sigue aproximadamente la dirección de descenso más pronunciada , comportándose como el método del gradiente. Por otro lado, SPSA, con la dirección de búsqueda aleatoria, no sigue exactamente la trayectoria del gradiente. Sin embargo, en promedio, lo sigue casi porque la aproximación del gradiente es un estimador casi imparcial del gradiente, como se muestra en el siguiente lema.

Lema de convergencia

Denotar por

el sesgo en el estimador . Supongamos que son todos mutuamente independientes con media cero, segundos momentos acotados y uniformemente acotados. Entonces →0 wp 1.

Bosquejo de la prueba

La idea principal es utilizar el condicionamiento para expresar y luego utilizar una expansión de Taylor de segundo orden de y . Después de las manipulaciones algebraicas utilizando la media cero y la independencia de , obtenemos

El resultado se desprende de la hipótesis de que →0.

A continuación retomamos algunas de las hipótesis bajo las cuales converge en probabilidad al conjunto de mínimos globales de . La eficiencia del método depende de la forma de , de los valores de los parámetros y de la distribución de los términos de perturbación . En primer lugar, los parámetros del algoritmo deben satisfacer las siguientes condiciones:

Una buena opción es la distribución de Rademacher , es decir, Bernoulli +-1 con probabilidad 0,5. También son posibles otras opciones, pero tenga en cuenta que no se pueden utilizar las distribuciones uniforme y normal porque no satisfacen las condiciones de momento inverso finito.

La función de pérdida J(u) debe ser tres veces continuamente diferenciable y los elementos individuales de la tercera derivada deben estar acotados: . Además, como .

Además, debe ser Lipschitz continua, acotada y la EDO debe tener una solución única para cada condición inicial. Bajo estas condiciones y algunas otras, converge en probabilidad al conjunto de mínimos globales de J(u) (véase Maryak y Chin, 2008).

Se ha demostrado que no se requiere diferenciabilidad: la continuidad y la convexidad son suficientes para la convergencia. [1]

Extensión a métodos de segundo orden (Newton)

Se sabe que una versión estocástica del algoritmo estándar (determinista) de Newton-Raphson (un método de “segundo orden”) proporciona una forma asintóticamente óptima o casi óptima de aproximación estocástica. SPSA también se puede utilizar para estimar de manera eficiente la matriz hessiana de la función de pérdida en función de mediciones de pérdida ruidosas o mediciones de gradiente ruidosas (gradientes estocásticos). Al igual que con el método SPSA básico, solo se necesita una pequeña cantidad fija de mediciones de pérdida o mediciones de gradiente en cada iteración, independientemente de la dimensión del problema p . Consulte la breve discusión en Descenso de gradiente estocástico .

Referencias

  1. ^ He, Ying; Fu, Michael C.; Steven I., Marcus (agosto de 2003). "Convergencia de la aproximación estocástica de perturbación simultánea para la optimización no diferenciable". IEEE Transactions on Automatic Control . 48 (8): 1459–1463. doi :10.1109/TAC.2003.815008 . Consultado el 6 de marzo de 2022 .