Información de Fisher

[2]​ También aparece como la covarianza de grandes muestras de la distribución posterior, siempre que la distribución a priori sea suficientemente suave (un resultado conocido como el teorema de Bernstein-von Mises, que fue anticipado por Laplace para las familias exponenciales).

es plano y disperso, se necesitarían muchas muestras de

que se podría obtener utilizando toda la población muestreada.

Esto sugiere estudiar algún tipo de varianza con respecto a

Una variable aleatoria con información de Fisher elevada implica que el valor absoluto del score suele ser alto.

Si log f(x; θ) es dos veces diferenciable con respecto a

Cerca de la estimación de máxima verosimilitud, una información de Fisher baja indica que el máximo parece blunt, es decir, que el máximo es poco profundo y hay muchos valores cercanos con una log-verosimilitud similar.

En este caso, aunque la información de Fisher pueda calcularse a partir de la definición, no tendrá las propiedades que se le suponen típicamente.

, y las derivadas de estos logaritmos con respecto a

Por lo tanto, se puede sustituir log-verosimilitud l(θ; X) en lugar de log

Por la regla del producto, esta derivada parcial también es igual a:

Esta matriz se denomina matriz de información de Fisher (MIF o Fisher information matrix) y tiene el elemento típico

Al considerar cómo analizar un modelo estadístico, se aconseja al modelizador que invierta algún tiempo en buscar una parametrización ortogonal del modelo, en particular cuando el parámetro de interés es unidimensional, pero el parámetro perturbador puede tener cualquier dimensión.

, se dice que el modelo estadístico correspondiente es regular; en caso contrario, se dice que el modelo estadístico es singular.

En el aprendizaje automático, si un modelo estadístico se diseña de forma que extraiga la estructura oculta de un fenómeno aleatorio, se convierte naturalmente en singular.

y el vector de variables aleatorias normales sea

Suponiendo que los valores medios de estas variables aleatorias son

Esto es especialmente popular en el análisis de datos espaciales, que a menudo utiliza un modelo lineal con residuos correlacionados.

son variables aleatorias distribuidas conjuntamente, se deduce que:[22]​

La información proporcionada por una estadística suficiente es la misma que la de la muestra

Es como si, de todos los conjuntos acotados con un volumen dado, la esfera tuviera la superficie más pequeña.

es el volumen del «conjunto de apoyo efectivo»,[30]​ por lo que

Trabajar con números reales positivos aporta varias ventajas: Si el estimador de un único parámetro tiene una varianza positiva, entonces la varianza y la información de Fisher son números reales positivos; por lo tanto, son miembros del cono convexo de números reales no negativos (cuyos miembros no nulos tienen recíprocos en este mismo cono).

Este cono es cerrado bajo la adición e inversión de matrices, así como bajo la multiplicación de números reales positivos y matrices.

[34]​ La información de Fisher desempeña un papel central en un controvertido principio propuesto por Frieden como base de las leyes físicas, afirmación que ha sido puesta en duda.

[35]​ La información de Fisher se utiliza en técnicas de aprendizaje automático como la consolidación del peso elástico,[36]​ que reduce el olvido catastrófico en las redes neuronales artificiales.

La información de Fisher está relacionada con la entropía relativa.

es fija, entonces la entropía relativa entre dos distribuciones de la misma familia se minimiza en

, se puede expandir la expresión anterior en una serie de segundo orden:

[40]​ Por ejemplo, Savage[41]​ dice: «En ella [la información de Fisher], él [Fisher] se anticipó hasta cierto punto (Edgeworth 1908-9 esp. 502, 507-8, 662, 677-8, 82-5 y referencia citas de él [Edgeworth], incluyendo a Pearson y Filon 1898 [.

Leyenda del libro: "Ronald Aylmer Fisher (1890–1962) en 1912, como mayordomo en la Primera Conferencia Internacional de Eugenesia."