En matemáticas , una variedad estadística es una variedad de Riemann , cada uno de cuyos puntos es una distribución de probabilidad . Las variedades estadísticas proporcionan un entorno para el campo de la geometría de la información . La métrica de información de Fisher proporciona una métrica sobre estas variedades. Siguiendo esta definición, la función de log-verosimilitud es un mapa diferenciable y la puntuación es una inclusión . [1]
La familia de todas las distribuciones normales puede considerarse como un espacio paramétrico bidimensional parametrizado por el valor esperado μ y la varianza σ 2 ≥ 0. Equipada con la métrica de Riemann dada por la matriz de información de Fisher , es una variedad estadística con una geometría modelada en el espacio hiperbólico . Una forma de representar la variedad se realiza infiriendo las ecuaciones paramétricas a través de la información de Fisher en lugar de partir de la función de verosimilitud.
Un ejemplo sencillo de variedad estadística, tomado de la física, sería el conjunto canónico : es una variedad unidimensional, con la temperatura T como coordenada en la variedad. Para cualquier temperatura fija T , se tiene un espacio de probabilidad: por lo tanto, para un gas de átomos, sería la distribución de probabilidad de las velocidades de los átomos. A medida que se varía la temperatura T , varía la distribución de probabilidad.
Otro ejemplo sencillo, tomado de la medicina, sería la distribución de probabilidad de los resultados de los pacientes, en respuesta a la cantidad de medicamento administrado. Es decir, para una dosis fija, algunos pacientes mejoran y otros no: este es el espacio de probabilidad base. Si se varía la dosis, entonces cambia la probabilidad de los resultados. Por lo tanto, la dosis es la coordenada en la variedad. Para que sea una variedad suave , uno tendría que medir los resultados en respuesta a cambios arbitrariamente pequeños en la dosis; este no es un ejemplo prácticamente realizable, a menos que uno tenga un modelo matemático preexistente de dosis-respuesta donde la dosis pueda variar arbitrariamente.
Sea X una variedad orientable , y sea una medida en X . Equivalentemente, sea un espacio de probabilidad en , con álgebra sigma y probabilidad .
La variedad estadística S ( X ) de X se define como el espacio de todas las medidas en X (manteniendo fija la sigma-álgebra ). Nótese que este espacio es de dimensión infinita; se lo considera comúnmente como un espacio de Fréchet . Los puntos de S ( X ) son medidas.
En lugar de trabajar con un espacio de dimensión infinita S ( X ), es común trabajar con una subvariedad de dimensión finita , definida al considerar un conjunto de distribuciones de probabilidad parametrizadas por algún parámetro suave que varía continuamente . Es decir, se consideran solo aquellas medidas que son seleccionadas por el parámetro. Si el parámetro es n -dimensional, entonces, en general, la subvariedad también lo será. Todas las variedades estadísticas de dimensión finita se pueden entender de esta manera. [ aclaración necesaria ]