El anterior de Jeffreys

En estadística bayesiana , la distribución a priori de Jeffreys es una distribución a priori no informativa para un espacio de parámetros . Lleva el nombre de Sir Harold Jeffreys ^{[1] y} su función de densidad es proporcional a la raíz cuadrada del determinante de la matriz de información de Fisher :

$p\left(\theta \right)\propto \left|I(\theta )\right|^{1/2}.\,$

Tiene la característica clave de que es invariante bajo un cambio de coordenadas para el vector de parámetros . Es decir, la probabilidad relativa asignada a un volumen de un espacio de probabilidad utilizando una distribución a priori de Jeffreys será la misma independientemente de la parametrización utilizada para definir la distribución a priori de Jeffreys. Esto la hace de especial interés para su uso con parámetros de escala . ^[2] Como ejemplo concreto, una distribución de Bernoulli puede parametrizarse por la probabilidad de ocurrencia p , o por la razón de probabilidades . En este caso, una distribución a priori uniforme ingenua no es invariante a esta reparametrización, pero la distribución a priori de Jeffreys sí lo es. ${\textstyle \theta }$

En la estimación de máxima verosimilitud de modelos familiares exponenciales , se demostró que los términos de penalización basados en la prior de Jeffreys reducen el sesgo asintótico en las estimaciones puntuales. ^[3]^[4]

Reparametrización

Caso de un parámetro

Si y son dos parametrizaciones posibles de un modelo estadístico, y es una función continuamente diferenciable de , decimos que la anterior es "invariante" bajo una reparametrización si es decir, si las anteriores y están relacionadas por el teorema usual de cambio de variables . ${\textstyle \theta }$ ${\textstyle \varphi }$ ${\textstyle \theta }$ ${\textstyle \varphi }$ ${\textstyle p_{\theta }(\theta )}$ $p_{\varphi }(\varphi )=p_{\theta }(\theta )\left|{\frac {d\theta }{d\varphi }}\right|,$ ${\textstyle p_{\theta }(\theta )}$ ${\textstyle p_{\varphi }(\varphi )}$

Dado que la información de Fisher se transforma bajo la reparametrización al definir los valores anteriores , nos da la "invariancia" deseada. ^[5] $I_{\varphi }(\varphi )=I_{\theta }(\theta )\left({\frac {d\theta }{d\varphi }}\right)^{2},$ ${\textstyle p_{\varphi }(\varphi )\propto {\sqrt {I_{\varphi }(\varphi )}}}$ ${\textstyle p_{\theta }(\theta )\propto {\sqrt {I_{\theta }(\theta )}}}$

Caso de múltiples parámetros

Análogamente al caso de un parámetro, sean y dos parametrizaciones posibles de un modelo estadístico, con una función continuamente diferenciable de . Llamamos a la anterior "invariante" bajo reparametrización si donde es la matriz jacobiana con entradas Dado que la matriz de información de Fisher se transforma bajo reparametrización como tenemos que y, por lo tanto, definiendo las anteriores como y nos da la "invariancia" deseada. ${\textstyle {\vec {\theta }}}$ ${\textstyle {\vec {\varphi }}}$ ${\textstyle {\vec {\theta }}}$ ${\textstyle {\vec {\varphi }}}$ ${\textstyle p_{\theta }({\vec {\theta }})}$ $p_{\varphi }({\vec {\varphi }})=p_{\theta }({\vec {\theta }})~|\det J|\,,$ ${\textstyle J}$ $J_{ij}={\frac {\partial \theta _{i}}{\partial \varphi _{j}}}.$ $I_{\varphi }({\vec {\varphi }})=J^{T}I_{\theta }({\vec {\theta }})J,$ $\det I_{\varphi }(\varphi )=\det I_{\theta }(\theta )(\det J)^{2}$ ${\textstyle p_{\varphi }({\vec {\varphi }})\propto {\sqrt {\det I_{\varphi }({\vec {\varphi }})}}}$ ${\textstyle p_{\theta }({\vec {\theta }})\propto {\sqrt {\det I_{\theta }({\vec {\theta }})}}}$

Atributos

Desde un punto de vista práctico y matemático, una razón válida para utilizar esta distribución previa no informativa en lugar de otras, como las obtenidas a través de un límite en familias conjugadas de distribuciones, es que la probabilidad relativa de un volumen del espacio de probabilidad no depende del conjunto de variables paramétricas que se elige para describir el espacio de parámetros.

A veces, la distribución a priori de Jeffreys no se puede normalizar y, por lo tanto, es una distribución a priori impropia . Por ejemplo, la distribución a priori de Jeffreys para la media de la distribución es uniforme en toda la línea real en el caso de una distribución gaussiana de varianza conocida.

El uso de la prior de Jeffreys viola la versión fuerte del principio de verosimilitud , que es aceptada por muchos, pero de ninguna manera todos, los estadísticos. Cuando se utiliza la prior de Jeffreys, las inferencias sobre dependen no solo de la probabilidad de los datos observados como una función de , sino también del universo de todos los resultados experimentales posibles, según lo determina el diseño experimental, porque la información de Fisher se calcula a partir de una expectativa sobre el universo elegido. En consecuencia, la prior de Jeffreys, y por lo tanto las inferencias realizadas con ella, pueden ser diferentes para dos experimentos que involucran el mismo parámetro incluso cuando las funciones de verosimilitud para los dos experimentos son las mismas, una violación del principio de verosimilitud fuerte. ${\textstyle {\vec {\theta }}}$ ${\textstyle {\vec {\theta }}}$ ${\textstyle {\vec {\theta }}}$

Longitud mínima de descripción

En el enfoque de longitud mínima de descripción para las estadísticas, el objetivo es describir los datos de la forma más compacta posible, donde la longitud de una descripción se mide en bits del código utilizado. Para una familia paramétrica de distribuciones, se compara un código con el mejor código basado en una de las distribuciones de la familia parametrizada. El resultado principal es que en las familias exponenciales , asintóticamente para un tamaño de muestra grande, el código basado en la distribución que es una mezcla de los elementos de la familia exponencial con la distribución previa de Jeffreys es óptimo. Este resultado se mantiene si se restringe el conjunto de parámetros a un subconjunto compacto en el interior del espacio de parámetros completo ^{[ cita requerida ]} . Si se utiliza el parámetro completo, se debe utilizar una versión modificada del resultado.

Ejemplos

La prior de Jeffreys para un parámetro (o un conjunto de parámetros) depende del modelo estadístico.

Distribución gaussiana con parámetro medio

Para la distribución gaussiana del valor real con fijo, la previa de Jeffreys para la media es Es decir, la previa de Jeffreys para no depende de ; es la distribución uniforme no normalizada en la línea real —la distribución que es 1 (o alguna otra constante fija) para todos los puntos. Esta es una previa impropia y es, hasta la elección de la constante, la única distribución invariante de traslación en los números reales (la medida de Haar con respecto a la adición de números reales), correspondiente a que la media es una medida de ubicación y la invariancia de traslación corresponde a que no hay información sobre la ubicación. ${\textstyle x}$ $f(x\mid \mu )={\frac {e^{-(x-\mu )^{2}/2\sigma ^{2}}}{\sqrt {2\pi \sigma ^{2}}}}$ ${\textstyle \sigma }$ ${\textstyle \mu }$ ${\begin{aligned}p(\mu )&\propto {\sqrt {I(\mu )}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d}{d\mu }}\log f(x\mid \mu )\right)^{2}\right]}}={\sqrt {\operatorname {E} \!\left[\left({\frac {x-\mu }{\sigma ^{2}}}\right)^{2}\right]}}\\&={\sqrt {\int _{-\infty }^{+\infty }f(x\mid \mu )\left({\frac {x-\mu }{\sigma ^{2}}}\right)^{2}dx}}={\sqrt {\sigma ^{2}/\sigma ^{4}}}\propto 1.\end{aligned}}$ ${\textstyle \mu }$ ${\textstyle \mu }$

Distribución gaussiana con parámetro de desviación estándar

Para la distribución gaussiana del valor real con fijo, la prior de Jeffreys para la desviación estándar es Equivalentemente, la prior de Jeffreys para es la distribución uniforme no normalizada en la línea real, y por lo tanto esta distribución también se conoce como ${\textstyle x}$ $f(x\mid \sigma )={\frac {e^{-(x-\mu )^{2}/2\sigma ^{2}}}{\sqrt {2\pi \sigma ^{2}}}},$ ${\textstyle \mu }$ ${\textstyle \sigma >0}$ ${\begin{aligned}p(\sigma )&\propto {\sqrt {I(\sigma )}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d}{d\sigma }}\log f(x\mid \sigma )\right)^{2}\right]}}={\sqrt {\operatorname {E} \!\left[\left({\frac {(x-\mu )^{2}-\sigma ^{2}}{\sigma ^{3}}}\right)^{2}\right]}}\\&={\sqrt {\int _{-\infty }^{+\infty }f(x\mid \sigma )\left({\frac {(x-\mu )^{2}-\sigma ^{2}}{\sigma ^{3}}}\right)^{2}dx}}={\sqrt {\frac {2}{\sigma ^{2}}}}\propto {\frac {1}{\sigma }}.\end{aligned}}$ ${\textstyle \log \sigma =\int d\sigma /\sigma }$ a priori logarítmico . De manera similar, el a priori de Jeffreys paratambién es uniforme. Es el único a priori (hasta un múltiplo) (en los números reales positivos) que esinvarianteen la escalamedida de Haarcon respecto a la multiplicación de números reales positivos), lo que corresponde a que la desviación estándar es una medida deescalay la invariancia de escala corresponde a que no hay información sobre la escala. Al igual que con la distribución uniforme en los números reales, es una priori impropio. ${\textstyle \log \sigma ^{2}=2\log \sigma }$

Distribución de Poisson con parámetro de velocidad

Para la distribución de Poisson del entero no negativo , la prior de Jeffreys para el parámetro de tasa es Equivalentemente, la prior de Jeffreys para es la distribución uniforme no normalizada en la línea real no negativa. ${\textstyle n}$ $f(n\mid \lambda )=e^{-\lambda }{\frac {\lambda ^{n}}{n!}},$ ${\textstyle \lambda \geq 0}$ ${\begin{aligned}p(\lambda )&\propto {\sqrt {I(\lambda )}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d}{d\lambda }}\log f(n\mid \lambda )\right)^{2}\right]}}={\sqrt {\operatorname {E} \!\left[\left({\frac {n-\lambda }{\lambda }}\right)^{2}\right]}}\\&={\sqrt {\sum _{n=0}^{+\infty }f(n\mid \lambda )\left({\frac {n-\lambda }{\lambda }}\right)^{2}}}={\sqrt {\frac {1}{\lambda }}}.\end{aligned}}$ ${\textstyle {\sqrt {\lambda }}=\int d\lambda /{\sqrt {\lambda }}}$

El proceso de Bernoulli

Para una moneda que tiene una probabilidad de "cara" y una probabilidad de "cruz" , para un determinado la probabilidad es . La prior de Jeffreys para el parámetro es ${\textstyle \gamma \in [0,1]}$ ${\textstyle 1-\gamma }$ ${\textstyle (H,T)\in \{(0,1),(1,0)\}}$ ${\textstyle \gamma ^{H}(1-\gamma )^{T}}$ ${\textstyle \gamma }$

${\begin{aligned}p(\gamma )&\propto {\sqrt {I(\gamma )}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d}{d\gamma }}\log f(x\mid \gamma )\right)^{2}\right]}}={\sqrt {\operatorname {E} \!\left[\left({\frac {H}{\gamma }}-{\frac {T}{1-\gamma }}\right)^{2}\right]}}\\&={\sqrt {\gamma \left({\frac {1}{\gamma }}-{\frac {0}{1-\gamma }}\right)^{2}+(1-\gamma )\left({\frac {0}{\gamma }}-{\frac {1}{1-\gamma }}\right)^{2}}}={\frac {1}{\sqrt {\gamma (1-\gamma )}}}\,.\end{aligned}}$

Esta es la distribución arcoseno y es una distribución beta con . Además, si entonces Es decir, la distribución previa de Jeffreys para es uniforme en el intervalo . De manera equivalente, es uniforme en todo el círculo . ${\textstyle \alpha =\beta =1/2}$ ${\textstyle \gamma =\sin ^{2}(\theta )}$ $\Pr[\theta ]=\Pr[\gamma ]{\frac {d\gamma }{d\theta }}\propto {\frac {1}{\sqrt {(\sin ^{2}\theta )(1-\sin ^{2}\theta )}}}~2\sin \theta \cos \theta =2\,.$ ${\textstyle \theta }$ ${\textstyle [0,\pi /2]}$ ${\textstyle \theta }$ ${\textstyle [0,2\pi ]}$

norteDado de dos caras con probabilidades sesgadas

De manera similar, para el lanzamiento de un dado de dos caras con probabilidades de resultado , cada una no negativa y satisfactoria , la distribución previa de Jeffreys para es la distribución de Dirichlet con todos los parámetros (alfa) fijados en la mitad. Esto equivale a utilizar un pseudoconteo de la mitad para cada resultado posible. ${\textstyle N}$ ${\textstyle {\vec {\gamma }}=(\gamma _{1},\ldots ,\gamma _{N})}$ ${\textstyle \sum _{i=1}^{N}\gamma _{i}=1}$ ${\textstyle {\vec {\gamma }}}$

De manera equivalente, si escribimos para cada , entonces la prior de Jeffreys para es uniforme en la esfera unitaria de dimensión ( es decir , es uniforme en la superficie de una bola unitaria de dimensión ). ${\textstyle \gamma _{i}=\varphi _{i}^{2}}$ ${\textstyle i}$ ${\textstyle {\vec {\varphi }}}$ ${\textstyle (N-1)}$ ${\textstyle N}$

Generalizaciones

Igualación de probabilidad previa

En 1963, Welch y Peers demostraron que para un parámetro escalar θ la prior de Jeffreys es "de coincidencia de probabilidad" en el sentido de que las probabilidades predictivas posteriores concuerdan con las probabilidades frecuentistas y los intervalos creíbles de un ancho elegido coinciden con los intervalos de confianza frecuentistas . ^[6] En un seguimiento, Peers demostró que esto no era cierto para el caso de múltiples parámetros, ^[7] en cambio, llevó a la noción de anteriores de coincidencia de probabilidad que solo se definen implícitamente como la distribución de probabilidad que resuelve una cierta ecuación diferencial parcial que involucra la información de Fisher . ^[8]

α-paralelo a priori

Utilizando herramientas de la geometría de la información , el prior de Jeffreys puede ser generalizado en pos de obtener priores que codifiquen información geométrica del modelo estadístico, de manera que sean invariantes ante un cambio de la coordenada de los parámetros. ^[9] Un caso especial, el llamado prior de Weyl, se define como una forma de volumen sobre una variedad de Weyl . ^[10]

Referencias

^ Jeffreys H (1946). "Una forma invariante para la probabilidad previa en problemas de estimación". Actas de la Royal Society de Londres . Serie A, Ciencias matemáticas y físicas. 186 (1007): 453–461. Bibcode :1946RSPSA.186..453J. doi :10.1098/rspa.1946.0056. JSTOR 97883. PMID 20998741.
^ Jaynes ET (septiembre de 1968). "Probabilidades previas" (PDF) . IEEE Transactions on Systems Science and Cybernetics . 4 (3): 227–241. doi :10.1109/TSSC.1968.300117.
^ Firth, David (1992). "Reducción de sesgo, la prior de Jeffreys y GLIM". En Fahrmeir, Ludwig; Francis, Brian; Gilchrist, Robert; Tutz, Gerhard (eds.). Avances en GLIM y modelado estadístico . Nueva York: Springer. págs. 91–100. doi :10.1007/978-1-4612-2952-0_15. ISBN . 0-387-97873-9.
^ Magis, David (2015). "Una nota sobre la probabilidad ponderada y la estimación modal de Jeffreys de los niveles de competencia en modelos de respuesta a ítems politómicos". Psychometrika . 80 : 200–204. doi :10.1007/s11336-013-9378-5.
^ Robert CP, Chopin N, Rousseau J (2009). "Revisión de la teoría de la probabilidad de Harold Jeffreys". Ciencia estadística . 24 (2). arXiv : 0804.3173 . doi : 10.1214/09-STS284 .
^ Welch, BL; Peers, HW (1963). "Sobre fórmulas para puntos de confianza basados en integrales de verosimilitudes ponderadas". Journal of the Royal Statistical Society . Serie B (Metodológica). 25 (2): 318–329. doi :10.1111/j.2517-6161.1963.tb00512.x.
^ Peers, HW (1965). "Sobre puntos de confianza y puntos de probabilidad bayesianos en el caso de varios parámetros". Journal of the Royal Statistical Society . Serie B (Metodológica). 27 (1): 9–16. doi :10.1111/j.2517-6161.1965.tb00581.x.
^ Scricciolo, Catia (1999). "Prioridades de emparejamiento de probabilidad: una revisión". Revista de la Sociedad Italiana de Estadística . 8 . 83. doi :10.1007/BF03178943.
^ Takeuchi, J.; Amari, S. (2005). "A priori α-paralelo y sus propiedades". IEEE Transactions on Information Theory . 51 (3): 1011–1023. doi :10.1109/TIT.2004.842703.
^ Jiang, Ruichao; Tavakoli, Javad; Zhao, Yiqiang (2020). "Prioridad de Weyl y estadística bayesiana". Entropía . 22 (4). 467. doi : 10.3390/e22040467 . PMC 7516948 .

Lectura adicional

Kass RE, Wasserman L (1996). "La selección de distribuciones previas mediante reglas formales". Revista de la Asociación Estadounidense de Estadística . 91 (435): 1343–1370. doi :10.1080/01621459.1996.10477003.
Lee, Peter M. (2012). "La regla de Jeffreys". Estadística bayesiana: una introducción (4.ª ed.). Wiley. págs. 96-102. ISBN 978-1-118-33257-3.