stringtranslate.com

Matriz de Hesse

En matemáticas , la matriz hessiana , matriz hessiana o (menos comúnmente) matriz de Hesse es una matriz cuadrada de derivadas parciales de segundo orden de una función de valor escalar o campo escalar . Describe la curvatura local de una función de muchas variables. La matriz hessiana fue desarrollada en el siglo XIX por el matemático alemán Ludwig Otto Hesse y posteriormente recibió su nombre. Hesse utilizó originalmente el término "determinantes funcionales". La matriz hessiana a veces se denota por H o, ambiguamente, por ∇ 2 .

Definiciones y propiedades

Supongamos que es una función que toma como entrada un vector y tiene como salida un escalar Si existen todas las derivadas parciales de segundo orden de , entonces la matriz hessiana de es una matriz cuadrada , generalmente definida y ordenada como Es decir, la entrada de la i- ésima fila y la j -ésima columna es

Si además las segundas derivadas parciales son todas continuas, la matriz hessiana es una matriz simétrica por la simetría de las segundas derivadas .

El determinante de la matriz hessiana se llama determinante hessiano . [1]

La matriz hessiana de una función es la transpuesta de la matriz jacobiana del gradiente de la función ; es decir:

Aplicaciones

Puntos de inflexión

Si es un polinomio homogéneo en tres variables, la ecuación es la ecuación implícita de una curva proyectiva plana . Los puntos de inflexión de la curva son exactamente los puntos no singulares donde el determinante hessiano es cero. Por el teorema de Bézout se deduce que una curva plana cúbica tiene como máximo puntos de inflexión, ya que el determinante hessiano es un polinomio de grado

Prueba de la segunda derivada

La matriz hessiana de una función convexa es semidefinida positiva . Refinar esta propiedad nos permite comprobar si un punto crítico es un máximo local, un mínimo local o un punto de silla, de la siguiente manera:

Si el hessiano es positivo-definido en entonces alcanza un mínimo local aislado en Si el hessiano es negativo-definido en entonces alcanza un máximo local aislado en Si el hessiano tiene valores propios positivos y negativos , entonces es un punto de silla para De lo contrario, la prueba no es concluyente. Esto implica que en un mínimo local el hessiano es positivo-semidefinido, y en un máximo local el hessiano es negativo-semidefinido.

En el caso de las hessianas positivas-semidefinidas y negativas-semidefinidas, la prueba no es concluyente (un punto crítico en el que la hessiana es semidefinida pero no definida puede ser un extremo local o un punto de silla). Sin embargo, se puede decir más desde el punto de vista de la teoría de Morse .

La prueba de la segunda derivada para funciones de una y dos variables es más sencilla que el caso general. En una variable, la hessiana contiene exactamente una segunda derivada; si es positiva, entonces es un mínimo local, y si es negativa, entonces es un máximo local; si es cero, entonces la prueba no es concluyente. En dos variables, se puede utilizar el determinante , porque el determinante es el producto de los valores propios. Si es positivo, entonces los valores propios son ambos positivos, o ambos negativos. Si es negativo, entonces los dos valores propios tienen signos diferentes. Si es cero, entonces la prueba de la segunda derivada no es concluyente.

De manera equivalente, las condiciones de segundo orden que son suficientes para un mínimo o máximo local pueden expresarse en términos de la secuencia de menores principales (arriba a la izquierda) (determinantes de submatrices) de la hessiana; estas condiciones son un caso especial de las que se dan en la siguiente sección para las hessianas con borde para la optimización restringida (el caso en el que el número de restricciones es cero). Específicamente, la condición suficiente para un mínimo es que todos estos menores principales sean positivos, mientras que la condición suficiente para un máximo es que los menores se alternen en signo, siendo el menor negativo.

Puntos críticos

Si el gradiente (el vector de las derivadas parciales) de una función es cero en algún punto , entonces tiene un punto crítico (o punto estacionario ) en El determinante de la hessiana en se denomina, en algunos contextos, discriminante . Si este determinante es cero, entonces se denomina punto crítico degenerado de o punto crítico no Morse de En caso contrario, no es degenerado y se denomina punto crítico Morse de

La matriz hessiana juega un papel importante en la teoría de Morse y la teoría de catástrofes , porque su núcleo y sus valores propios permiten la clasificación de los puntos críticos. [2] [3] [4]

El determinante de la matriz hessiana, cuando se evalúa en un punto crítico de una función, es igual a la curvatura gaussiana de la función considerada como variedad. Los valores propios de la matriz hessiana en ese punto son las curvaturas principales de la función, y los vectores propios son las direcciones principales de la curvatura. (Véase Curvatura gaussiana § Relación con las curvaturas principales .)

Uso en optimización

Las matrices hessianas se utilizan en problemas de optimización a gran escala dentro de los métodos de tipo Newton porque son el coeficiente del término cuadrático de una expansión local de Taylor de una función. Es decir, donde es el gradiente Calcular y almacenar la matriz hessiana completa requiere memoria, lo que no es factible para funciones de alta dimensión como las funciones de pérdida de redes neuronales , campos aleatorios condicionales y otros modelos estadísticos con grandes cantidades de parámetros. Para tales situaciones, se han desarrollado algoritmos truncados de Newton y cuasi-Newton . La última familia de algoritmos utiliza aproximaciones a la hessiana; uno de los algoritmos cuasi-Newton más populares es BFGS . [5]

Estas aproximaciones pueden aprovechar el hecho de que un algoritmo de optimización utiliza el hessiano sólo como operador lineal y proceder observando primero que el hessiano también aparece en la expansión local del gradiente:

Si se deja que esto sea para algún escalar , se obtiene que es, por lo que si el gradiente ya está calculado, el hessiano aproximado se puede calcular mediante un número lineal (en el tamaño del gradiente) de operaciones escalares. (Si bien es simple de programar, este esquema de aproximación no es numéricamente estable ya que debe hacerse pequeño para evitar errores debido al término, pero al disminuirlo se pierde precisión en el primer término. [6] )

Cabe destacar que, en lo que respecta a la heurística de búsqueda aleatoria, la matriz de covarianza de la estrategia de evolución se adapta a la inversa de la matriz de Hesse, hasta un factor escalar y pequeñas fluctuaciones aleatorias. Este resultado se ha demostrado formalmente para una estrategia monoparental y un modelo estático, a medida que aumenta el tamaño de la población, basándose en la aproximación cuadrática. [7]

Otras aplicaciones

La matriz de Hesse se utiliza comúnmente para expresar operadores de procesamiento de imágenes en el procesamiento de imágenes y la visión por computadora (ver el detector de manchas Laplaciano de Gauss (LoG), el detector de manchas Determinante de Hesse (DoH) y el espacio de escala ). Se puede utilizar en el análisis de modo normal para calcular las diferentes frecuencias moleculares en espectroscopia infrarroja . [8] También se puede utilizar en sensibilidad local y diagnósticos estadísticos. [9]

Generalizaciones

Arpillera con borde

En ciertos problemas de optimización con restricciones se utiliza una hessiana con borde para la prueba de la segunda derivada. Dada la función considerada anteriormente, pero agregando una función de restricción tal que la hessiana con borde sea la hessiana de la función de Lagrange [10]

Si hay, por ejemplo, restricciones, entonces el cero en la esquina superior izquierda es un bloque de ceros, y hay filas de borde en la parte superior y columnas de borde a la izquierda.

Las reglas anteriores que establecen que los extremos se caracterizan (entre los puntos críticos con un hessiano no singular) por un hessiano positivo definido o negativo definido no se pueden aplicar aquí ya que un hessiano bordeado no puede ser ni negativo definido ni positivo definido, como si fuera cualquier vector cuya única entrada distinta de cero es su primera.

La prueba de la segunda derivada consiste aquí en restricciones de signo de los determinantes de un cierto conjunto de submatrices de la hessiana bordeada. [11] Intuitivamente, las restricciones pueden considerarse como una reducción del problema a uno con variables libres. (Por ejemplo, la maximización de sujeta a la restricción puede reducirse a la maximización de sin restricción).

Específicamente, se imponen condiciones de signo en la secuencia de menores principales principales (determinantes de submatrices justificadas en la parte superior izquierda) del hessiano bordeado, para lo cual se descuidan los primeros menores principales principales, consistiendo el menor más pequeño en las primeras filas y columnas truncadas, el siguiente en las primeras filas y columnas truncadas, y así sucesivamente, siendo el último el hessiano bordeado completo; si es mayor que entonces el menor principal principal principal más pequeño es el hessiano mismo. [12] Por lo tanto, hay menores a considerar, cada uno evaluado en el punto específico que se considera un máximo o mínimo candidato . Una condición suficiente para un máximo local es que estos menores alternen en signo con el más pequeño que tenga el signo de Una condición suficiente para un mínimo local es que todos estos menores tengan el signo de (En el caso sin restricciones de estas condiciones coinciden con las condiciones para que el hessiano sin borde sea definido negativo o definido positivo respectivamente).

Funciones con valores vectoriales

Si es en cambio un campo vectorial , es decir, entonces la colección de derivadas parciales segundas no es una matriz, sino un tensor de tercer orden . Esto puede considerarse como una matriz de matrices hessianas, una para cada componente de : Este tensor degenera en la matriz hessiana habitual cuando

Generalización al caso complejo

En el contexto de varias variables complejas , la matriz hessiana puede generalizarse. Supóngase y escriba Entonces, la matriz hessiana generalizada es Si satisface las condiciones de Cauchy-Riemann n-dimensionales , entonces la matriz hessiana compleja es idénticamente cero.

Generalizaciones a las variedades de Riemann

Sea una variedad de Riemann y su conexión de Levi-Civita . Sea una función suave. Defina el tensor de Hess por donde esto aprovecha el hecho de que la primera derivada covariante de una función es la misma que su diferencial ordinaria. La elección de coordenadas locales da una expresión local para el tensor de Hess como donde son los símbolos de Christoffel de la conexión. Otras formas equivalentes para el tensor de Hess están dadas por

Véase también

Notas

  1. ^ Binmore, Ken ; Davies, Joan (2007). Conceptos y métodos de cálculo . Cambridge University Press. pág. 190. ISBN 978-0-521-77541-0.OCLC 717598615  .
  2. ^ Callahan, James J. (2010). Cálculo avanzado: una perspectiva geométrica. Springer Science & Business Media. pág. 248. ISBN 978-1-4419-7332-0.
  3. ^ Casciaro, B.; Fortunato, D.; Francaviglia, M.; Masiello, A., eds. (2011). Desarrollos recientes en relatividad general. Springer Science & Business Media. pág. 178. ISBN 9788847021136.
  4. ^ Domenico PL Castrigiano; Sandra A. Hayes (2004). Teoría de catástrofes . Westview Press. pág. 18. ISBN 978-0-8133-4126-2.
  5. ^ Nocedal, Jorge ; Wright, Stephen (2000). Optimización numérica . Springer Verlag. ISBN 978-0-387-98793-4.
  6. ^ Pearlmutter, Barak A. (1994). "Multiplicación rápida y exacta por el hessiano" (PDF) . Neural Computation . 6 (1): 147–160. doi :10.1162/neco.1994.6.1.147. S2CID  1251969.
  7. ^ Shir, OM; A. Yehudayoff (2020). "Sobre la relación covarianza-hessiana en las estrategias de evolución". Ciencias de la Computación Teórica . 801 . Elsevier: 157–174. arXiv : 1806.03674 . doi : 10.1016/j.tcs.2019.09.002 .
  8. ^ Mott, Adam J.; Rez, Peter (24 de diciembre de 2014). "Cálculo de los espectros infrarrojos de las proteínas". Revista Europea de Biofísica . 44 (3): 103–112. doi :10.1007/s00249-014-1005-6. ISSN  0175-7571. PMID  25538002. S2CID  2945423.
  9. ^ Liu, Shuangzhe; Leiva, Victor; Zhuang, Dan; Ma, Tiefeng; Figueroa-Zúñiga, Jorge I. (marzo de 2022). "Cálculo diferencial matricial con aplicaciones en el modelo lineal multivariado y sus diagnósticos". Journal of Multivariate Analysis . 188 : 104849. doi : 10.1016/j.jmva.2021.104849 .
  10. ^ Hallam, Arne (7 de octubre de 2004). "Econ 500: Métodos cuantitativos en el análisis económico I" (PDF) . Iowa State .
  11. ^ Neudecker, Heinz; Magnus, Jan R. (1988). Cálculo diferencial matricial con aplicaciones en estadística y econometría . Nueva York: John Wiley & Sons . pág. 136. ISBN. 978-0-471-91516-4.
  12. ^ Chiang, Alpha C. (1984). Métodos fundamentales de economía matemática (tercera edición). McGraw-Hill. pág. 386. ISBN 978-0-07-010813-4.

Lectura adicional

Enlaces externos