stringtranslate.com

Condiciones de Wolfe

En el problema de minimización sin restricciones , las condiciones de Wolfe son un conjunto de desigualdades para realizar una búsqueda de línea inexacta , especialmente en métodos cuasi-Newton , publicados por primera vez por Philip Wolfe en 1969. [1] [2]

En estos métodos, la idea es encontrar un punto de equilibrio . Cada paso suele implicar la solución aproximada del subproblema donde es la mejor estimación actual, es una dirección de búsqueda y es la longitud del paso.

Las búsquedas de línea inexactas proporcionan una forma eficiente de calcular una longitud de paso aceptable que reduce la función objetivo "suficientemente", en lugar de minimizar la función objetivo con exactitud. Un algoritmo de búsqueda de línea puede utilizar las condiciones de Wolfe como requisito para cualquier , antes de encontrar una nueva dirección de búsqueda .

Regla de Armijo y curvatura

Se dice que una longitud de paso satisface las condiciones de Wolfe , restringidas a la dirección , si se cumplen las dos desigualdades siguientes:

con . (Al examinar la condición (ii), recuerde que para asegurar que es una dirección de descenso, tenemos , como en el caso del descenso de gradiente , donde , o Newton–Raphson , donde con definida positiva).

se elige generalmente bastante pequeño mientras que es mucho más grande; Nocedal y Wright dan valores de ejemplo de y para los métodos de Newton o cuasi-Newton y para el método de gradiente conjugado no lineal . [3] La desigualdad i) se conoce como la regla de Armijo [4] y ii) como la condición de curvatura ; i) asegura que la longitud del paso disminuye "suficientemente", y ii) asegura que la pendiente se ha reducido lo suficiente. Las condiciones i) y ii) pueden interpretarse como que proporcionan respectivamente un límite superior e inferior en los valores de longitud de paso admisibles.

Condición de Wolfe fuerte en curvatura

Denotemos una función univariante restringida a la dirección como . Las condiciones de Wolfe pueden dar como resultado un valor para la longitud del paso que no esté cerca de un minimizador de . Si modificamos la condición de curvatura a lo siguiente,

entonces i) y iii) juntos forman las llamadas condiciones fuertes de Wolfe , y fuerzan a estar cerca de un punto crítico de .

Razón fundamental

La razón principal para imponer las condiciones de Wolfe en un algoritmo de optimización donde es asegurar la convergencia del gradiente a cero. En particular, si el coseno del ángulo entre y el gradiente, está acotado lejos de cero y se cumplen las condiciones i) y ii), entonces .

Una motivación adicional, en el caso de un método cuasi-Newton , es que si , donde la matriz se actualiza mediante la fórmula BFGS o DFP , entonces si es definida positiva ii) implica que también es definida positiva.

Comentarios

Las condiciones de Wolfe son más complicadas que la condición de Armijo, y un algoritmo de descenso de gradiente basado en la condición de Armijo tiene una mejor garantía teórica que uno basado en las condiciones de Wolfe (consulte las secciones sobre "Límite superior para las tasas de aprendizaje" y "Garantía teórica" ​​en el artículo de búsqueda de línea de retroceso ).

Véase también

Referencias

  1. ^ Wolfe, P. (1969). "Condiciones de convergencia para métodos de ascenso". SIAM Review . 11 (2): 226–235. doi :10.1137/1011036. JSTOR  2028111.
  2. ^ Wolfe, P. (1971). "Condiciones de convergencia para métodos de ascenso. II: Algunas correcciones". SIAM Review . 13 (2): 185–188. doi :10.1137/1013035. JSTOR  2028821.
  3. ^ Nocedal, Jorge ; Wright, Stephen (1999). Optimización numérica. p. 38.
  4. ^ Armijo, Larry (1966). "Minimización de funciones con derivadas parciales primeras continuas de Lipschitz". Pacific J. Math . 16 (1): 1–3. doi : 10.2140/pjm.1966.16.1 .

Lectura adicional