stringtranslate.com

matriz Hessiana

En matemáticas , la matriz de Hesse , matriz de Hesse o (menos comúnmente) de Hesse es una matriz cuadrada de derivadas parciales de segundo orden de una función con valores escalares , o campo escalar . Describe la curvatura local de una función de muchas variables. La matriz de Hesse fue desarrollada en el siglo XIX por el matemático alemán Ludwig Otto Hesse y más tarde recibió su nombre. Hesse utilizó originalmente el término "determinantes funcionales". El hessiano a veces se denota por H o, ambiguamente, por ∇ 2 .

Definiciones y propiedades

Supongamos que es una función que toma como entrada un vector y genera un escalar. Si existen todas las derivadas parciales de segundo orden de , entonces la matriz de Hesse de es una matriz cuadrada , generalmente definida y organizada como

ij

Si además las segundas derivadas parciales son todas continuas, la matriz de Hesse es una matriz simétrica por la simetría de las segundas derivadas .

El determinante de la matriz de Hesse se llama determinante de Hesse . [1]

La matriz hessiana de una función es la transpuesta de la matriz jacobiana del gradiente de la función ; eso es:

Aplicaciones

Puntos de inflexión

Si es un polinomio homogéneo en tres variables, la ecuación es la ecuación implícita de una curva proyectiva plana . Los puntos de inflexión de la curva son exactamente los puntos no singulares donde el determinante de Hesse es cero. Del teorema de Bézout se deduce que una curva plana cúbica tiene como máximo puntos de inflexión, ya que el determinante de Hesse es un polinomio de grado

Prueba de segunda derivada

La matriz de Hesse de una función convexa es semidefinida positiva . Refinar esta propiedad nos permite probar si un punto crítico es un máximo local, un mínimo local o un punto de silla, de la siguiente manera:

Si el hessiano es definido positivo en entonces alcanza un mínimo local aislado en Si el hessiano es definido negativo en entonces alcanza un máximo local aislado en Si el hessiano tiene valores propios positivos y negativos , entonces es un punto de silla para De lo contrario, la prueba es poco concluyente. Esto implica que en un mínimo local el hessiano es semidefinido positivo y en un máximo local el hessiano es semidefinido negativo.

Para los hessianos positivos-semidefinidos y negativos-semidefinidos, la prueba no es concluyente (un punto crítico donde el hessiano es semidefinido pero no definido puede ser un extremo local o un punto de silla). Sin embargo, se puede decir más desde el punto de vista de la teoría Morse .

La prueba de la segunda derivada para funciones de una y dos variables es más sencilla que el caso general. En una variable, el hessiano contiene exactamente una segunda derivada; si es positivo, entonces es un mínimo local, y si es negativo, entonces es un máximo local; si es cero, entonces la prueba no es concluyente. En dos variables se puede utilizar el determinante , porque el determinante es el producto de los valores propios. Si es positivo, entonces los valores propios son ambos positivos o ambos negativos. Si es negativo, entonces los dos valores propios tienen signos diferentes. Si es cero, entonces la prueba de la segunda derivada no es concluyente.

De manera equivalente, las condiciones de segundo orden que son suficientes para un mínimo o máximo local pueden expresarse en términos de la secuencia de menores principales (superior izquierdo) (determinantes de submatrices) del hessiano; estas condiciones son un caso especial de las que se dan en la siguiente sección para hessianos con borde para optimización restringida: el caso en el que el número de restricciones es cero. Específicamente, la condición suficiente para un mínimo es que todos estos menores principales sean positivos, mientras que la condición suficiente para un máximo es que los menores se alternen en signo, siendo el menor negativo.

Puntos críticos

Si el gradiente (el vector de las derivadas parciales) de una función es cero en algún punto, entonces tiene un punto crítico (o punto estacionario ) en El determinante de la a de Hesse se llama, en algunos contextos, discriminante . Si este determinante es cero, entonces se llama punto crítico degenerado o punto crítico no Morse . De lo contrario, no es degenerado y se llama punto crítico Morse .

La matriz de Hesse juega un papel importante en la teoría Morse y la teoría de catástrofes , porque su núcleo y sus valores propios permiten la clasificación de los puntos críticos. [2] [3] [4]

El determinante de la matriz de Hesse, cuando se evalúa en un punto crítico de una función, es igual a la curvatura gaussiana de la función considerada como variedad. Los valores propios del hessiano en ese punto son las curvaturas principales de la función, y los vectores propios son las direcciones principales de curvatura. (Ver curvatura gaussiana § Relación con las curvaturas principales ).

Uso en optimización

Las matrices de Hesse se utilizan en problemas de optimización a gran escala dentro de los métodos de tipo Newton porque son el coeficiente del término cuadrático de una expansión local de Taylor de una función. Eso es,

gradiente?funciones de pérdidaredes neuronalescampos aleatorios condicionalesmodelos estadísticosNewton truncadocuasi-NewtonBFGS[5]

Tales aproximaciones pueden aprovechar el hecho de que un algoritmo de optimización utiliza el hessiano sólo como operador lineal y proceder notando primero que el hessiano también aparece en la expansión local del gradiente:

Dejando por algún escalar esto da

[6]

En particular, en lo que respecta a las heurísticas de búsqueda aleatoria, la matriz de covarianza de la estrategia de evolución se adapta a la inversa de la matriz de Hesse, hasta un factor escalar y pequeñas fluctuaciones aleatorias. Este resultado ha sido probado formalmente para una estrategia monoparental y un modelo estático, a medida que aumenta el tamaño de la población, basándose en la aproximación cuadrática. [7]

Otras aplicaciones

La matriz de Hesse se usa comúnmente para expresar operadores de procesamiento de imágenes en procesamiento de imágenes y visión por computadora (consulte el detector de manchas laplaciano de Gauss (LoG), el determinante del detector de manchas de Hesse (DoH) y el espacio de escala ). Se puede utilizar en análisis en modo normal para calcular las diferentes frecuencias moleculares en espectroscopia infrarroja . [8] También se puede utilizar en sensibilidad local y diagnóstico estadístico. [9]

Generalizaciones

Arpillera bordeada

Se utiliza una arpillera con borde para la prueba de la segunda derivada en ciertos problemas de optimización restringida. Dada la función considerada anteriormente, pero agregando una función de restricción tal que el hessiano bordeado sea el hessiano de la función de Lagrange [10]

Si hay, digamos, restricciones, entonces el cero en la esquina superior izquierda es un bloque de ceros, y hay filas de borde en la parte superior y columnas de borde a la izquierda.

Las reglas anteriores que establecen que los extremos se caracterizan (entre puntos críticos con un hessiano no singular) por un hessiano definido positivo o definido negativo no se pueden aplicar aquí ya que un hessiano bordeado no puede ser definido negativo ni definido positivo, como si fuera cualquier vector cuya única entrada distinta de cero sea la primera.

La prueba de la segunda derivada consiste aquí en restricciones de signos de los determinantes de un determinado conjunto de submatrices del Hesse bordeado. [11] Intuitivamente, se puede pensar que las restricciones reducen el problema a uno con variables libres. (Por ejemplo, la maximización de sujeto a la restricción se puede reducir a la maximización de sin restricción).

Específicamente, se imponen condiciones de signo a la secuencia de menores principales principales (determinantes de las submatrices justificadas en la parte superior izquierda) del hessiano bordeado, para lo cual se ignoran los primeros menores principales principales, consistiendo el menor más pequeño en las primeras filas truncadas y columnas, la siguiente consta de las primeras filas y columnas truncadas, y así sucesivamente, siendo la última toda la arpillera bordeada; si es mayor que entonces, el menor principal principal más pequeño es el propio Hesse. [12] Hay pues menores a considerar, siendo cada uno evaluado en el punto específico considerado como candidato máximo o mínimo . Una condición suficiente para un máximo local es que estos menores se alternen en signo con el más pequeño que tenga el signo de Una condición suficiente para un mínimo local es que todos estos menores tengan el signo de (En el caso no restringido de estas condiciones coinciden con el condiciones para que el hessiano sin fronteras sea definido negativo o definido positivo, respectivamente).

Funciones con valores vectoriales

Si en cambio es un campo vectorial , es decir,

tensor

Generalización al caso complejo.

En el contexto de varias variables complejas , el hessiano puede generalizarse. Supongamos y escribamos: Entonces la matriz de Hesse generalizada es Si satisface las condiciones de Cauchy-Riemann de n dimensiones , entonces la matriz de Hesse compleja es idénticamente cero.

Generalizaciones a variedades de Riemann

Sea una variedad de Riemann y su conexión Levi-Civita . Sea una función suave. Defina el tensor de Hesse por

símbolos Christoffel

Ver también

Notas

  1. ^ Binmore, Ken ; Davies, Joan (2007). Conceptos y métodos de cálculo . Prensa de la Universidad de Cambridge. pag. 190.ISBN​ 978-0-521-77541-0. OCLC  717598615.
  2. ^ Callahan, James J. (2010). Cálculo avanzado: una vista geométrica. Medios de ciencia y negocios de Springer. pag. 248.ISBN 978-1-4419-7332-0.
  3. ^ Casciaro, B.; Fortunato, D.; Francaviglia, M.; Masiello, A., eds. (2011). Desarrollos recientes en la relatividad general. Medios de ciencia y negocios de Springer. pag. 178.ISBN 9788847021136.
  4. ^ Domenico PL Castrigiano; Sandra A. Hayes (2004). Teoría de la catástrofe . Prensa de Westview. pag. 18.ISBN 978-0-8133-4126-2.
  5. ^ Nocedal, Jorge ; Wright, Stephen (2000). Optimización numérica . Springer Verlag. ISBN 978-0-387-98793-4.
  6. ^ Pearlmutter, Barak A. (1994). "Multiplicación rápida y exacta por el hessiano" (PDF) . Computación neuronal . 6 (1): 147–160. doi :10.1162/neco.1994.6.1.147. S2CID  1251969.
  7. ^ Shir, OM; A. Yehudayoff (2020). "Sobre la relación covarianza-Hesse en las estrategias de evolución". Informática Teórica . 801 . Elsevier: 157-174. arXiv : 1806.03674 . doi : 10.1016/j.tcs.2019.09.002 .
  8. ^ Mott, Adam J.; Rez, Peter (24 de diciembre de 2014). "Cálculo de los espectros infrarrojos de proteínas". Revista Europea de Biofísica . 44 (3): 103–112. doi :10.1007/s00249-014-1005-6. ISSN  0175-7571. PMID  25538002. S2CID  2945423.
  9. ^ Liu, Shuangzhe; Leiva, Víctor; Zhuang, Dan; Mamá, Tiefeng; Figueroa-Zúñiga, Jorge I. (marzo 2022). "Cálculo diferencial matricial con aplicaciones en el modelo lineal multivariado y su diagnóstico". Revista de análisis multivariado . 188 : 104849. doi : 10.1016/j.jmva.2021.104849 .
  10. ^ Hallam, Arne (7 de octubre de 2004). "Econ 500: Métodos cuantitativos en análisis económico I" (PDF) . Estado de Iowa .
  11. ^ Neudecker, Heinz; Magnus, enero R. (1988). Cálculo Diferencial Matricial con Aplicaciones en Estadística y Econometría . Nueva York: John Wiley & Sons . pag. 136.ISBN 978-0-471-91516-4.
  12. ^ Chiang, Alfa C. (1984). Métodos fundamentales de la economía matemática (Tercera ed.). McGraw-Hill. pag. 386.ISBN 978-0-07-010813-4.

Otras lecturas

enlaces externos