El método de rango simétrico 1 ( SR1 ) es un método cuasi-newtoniano para actualizar la segunda derivada (hessiana) en función de las derivadas (gradientes) calculadas en dos puntos. Es una generalización del método secante para un problema multidimensional. Esta actualización mantiene la simetría de la matriz pero no garantiza que la actualización sea definida positiva .
La secuencia de aproximaciones hessianas generadas por el método SR1 converge al hessiano verdadero en condiciones suaves, en teoría; en la práctica, las hessianas aproximadas generadas por el método SR1 muestran un progreso más rápido hacia el hessiano verdadero que las alternativas populares ( BFGS o DFP ), en experimentos numéricos preliminares. [1] [2] El método SR1 tiene ventajas computacionales para problemas dispersos o parcialmente separables. [3]
Una función dos veces continuamente diferenciable tiene un gradiente ( ) y una matriz hessiana : La función tiene una expansión como una serie de Taylor en , que se puede truncar
- ;
Su gradiente también tiene una aproximación de serie de Taylor.
- ,
que se utiliza para actualizar . La ecuación secante anterior no necesita tener una solución única . La fórmula SR1 calcula (mediante una actualización de rango 1) la solución simétrica más cercana [ se necesita más explicación ] al valor aproximado actual :
- ,
dónde
- .
La actualización correspondiente al hessiano inverso aproximado es
- .
Uno podría preguntarse por qué no se conserva la definitividad positiva; después de todo, una actualización de rango 1 de la forma es positivamente definida si es. La explicación es que la actualización podría ser de la forma porque el denominador puede ser negativo y, en ese caso, no hay garantías sobre la definitividad positiva.
La fórmula SR1 ha sido redescubierta varias veces. Como el denominador puede desaparecer, algunos autores han sugerido que la actualización se aplique solo si
- ,
donde es un número pequeño, p. ej . [4]
Memoria limitada
La actualización SR1 mantiene una matriz densa, lo que puede resultar prohibitivo para problemas grandes. De manera similar al método L-BFGS, también existe un algoritmo SR1 de memoria limitada (L-SR1). [5] En lugar de almacenar la aproximación hessiana completa, un método L-SR1 solo almacena los pares más recientes , donde y es un entero mucho más pequeño que el tamaño del problema ( ). La matriz de memoria limitada se basa en una representación matricial compacta.
Dado que la actualización puede ser indefinida, el algoritmo L-SR1 es adecuado para una estrategia de región de confianza . Debido a la matriz de memoria limitada, el algoritmo L-SR1 de región de confianza escala linealmente con el tamaño del problema, al igual que L-BFGS.
Véase también
Referencias
- ^ Conn, AR; Gould, NIM; Toint, Ph. L. (marzo de 1991). "Convergencia de matrices cuasi-Newton generadas por la actualización simétrica de rango uno". Programación matemática . 50 (1). Springer Berlin/ Heidelberg: 177–195. doi :10.1007/BF01594934. ISSN 0025-5610. S2CID 28028770.
- ^ Khalfan, H. Fayez; et al. (1993). "Un estudio teórico y experimental de la actualización simétrica de rango uno". Revista SIAM sobre optimización . 3 (1): 1–24. doi :10.1137/0803001.
- ^ Byrd, Richard H.; et al. (1996). "Análisis de un método de región de confianza de rango uno simétrico". Revista SIAM sobre optimización . 6 (4): 1025–1039. doi :10.1137/S1052623493252985.
- ^ Nocedal, Jorge; Wright, Stephen J. (1999). Optimización numérica . Springer. ISBN 0-387-98793-2.
- ^ Brust, J.; et al. (2017). "Sobre la resolución de subproblemas de la región de confianza L-SR1". Optimización computacional y aplicaciones . 66 : 245–266. doi :10.1007/s10589-016-9868-3.