stringtranslate.com

jeffrey antes

En estadística bayesiana , la distribución previa de Jeffreys es una distribución previa no informativa para un espacio de parámetros . Nombrado en honor a Sir Harold Jeffreys , [1] su función de densidad es proporcional a la raíz cuadrada del determinante de la matriz de información de Fisher :

Tiene la característica clave de que es invariante ante un cambio de coordenadas para el vector de parámetros . Es decir, la probabilidad relativa asignada a un volumen de un espacio de probabilidad usando un previo de Jeffreys será la misma independientemente de la parametrización utilizada para definir el previo de Jeffreys. Esto lo hace de especial interés para su uso con parámetros de escala . [2] Como ejemplo concreto, una distribución de Bernoulli se puede parametrizar mediante la probabilidad de ocurrencia p o mediante la razón de probabilidades . Un previo uniforme ingenuo en este caso no es invariante para esta reparametrización, pero el previo de Jeffreys sí lo es.

En la estimación de máxima verosimilitud de modelos familiares exponenciales , se demostró que los términos de penalización basados ​​en el análisis previo de Jeffreys reducen el sesgo asintótico en las estimaciones puntuales. [3] [4]

Reparametrización

Caso de un parámetro

Si y son dos posibles parametrizaciones de un modelo estadístico, y es una función continuamente diferenciable de , decimos que el a priori es "invariante" bajo una reparametrización si es decir, si los a priori y están relacionados por el teorema habitual de cambio de variables .

Dado que la información de Fisher se transforma bajo reparametrización al definir los anteriores y nos da la "invariancia" deseada. [5]

Caso de múltiples parámetros

De manera análoga al caso de un parámetro, sean y dos posibles parametrizaciones de un modelo estadístico, con una función continuamente diferenciable de . Llamamos al anterior "invariante" bajo reparametrización si dónde está la matriz jacobiana con entradas. Dado que la matriz de información de Fisher se transforma bajo reparametrización como tenemos y, por lo tanto, definimos los anteriores como y nos da la "invariancia" deseada.

Atributos

Desde un punto de vista práctico y matemático, una razón válida para utilizar esta priorización no informativa en lugar de otras, como las obtenidas mediante un límite en familias de distribuciones conjugadas, es que la probabilidad relativa de un volumen del espacio de probabilidad no depende de el conjunto de variables de parámetros que se elige para describir el espacio de parámetros.

A veces el prior de Jeffreys no puede normalizarse y, por lo tanto, es un prior inadecuado . Por ejemplo, el previo de Jeffreys para la media de distribución es uniforme en toda la línea real en el caso de una distribución gaussiana de varianza conocida.

El uso del prior de Jeffreys viola la versión fuerte del principio de probabilidad , que es aceptado por muchos, pero no por todos, los estadísticos. Cuando se utiliza el a priori de Jeffreys, las inferencias sobre dependen no sólo de la probabilidad de los datos observados en función de , sino también del universo de todos los resultados experimentales posibles, según lo determinado por el diseño experimental, porque la información de Fisher se calcula a partir de una expectativa. sobre el universo elegido. En consecuencia, el método previo de Jeffreys, y por tanto las inferencias realizadas al utilizarlo, pueden ser diferentes para dos experimentos que involucran el mismo parámetro incluso cuando las funciones de probabilidad para los dos experimentos son las mismas: una violación del principio de probabilidad fuerte.

Longitud mínima de la descripción

En el enfoque estadístico de longitud mínima de descripción, el objetivo es describir los datos de la manera más compacta posible, donde la longitud de una descripción se mide en bits del código utilizado. Para una familia paramétrica de distribuciones, se compara un código con el mejor código basado en una de las distribuciones de la familia paramétrica. El resultado principal es que en familias exponenciales , asintóticamente para tamaños de muestra grandes, el código basado en la distribución que es una mezcla de los elementos de la familia exponencial con la previa de Jeffreys es óptimo. Este resultado es válido si se restringe el conjunto de parámetros a un subconjunto compacto en el interior del espacio de parámetros completo [ cita requerida ] . Si se utiliza el parámetro completo, se debe utilizar una versión modificada del resultado.

Ejemplos

El valor previo de Jeffreys para un parámetro (o un conjunto de parámetros) depende del modelo estadístico.

Distribución gaussiana con parámetro medio.

Para la distribución gaussiana del valor real con valor fijo, la prioridad de Jeffreys para la media es. Es decir, la prioridad de Jeffreys para la media no depende de ; es la distribución uniforme no normalizada en la recta real: la distribución que es 1 (o alguna otra constante fija) para todos los puntos. Esta es una priorización impropia y es, hasta la elección de la constante, la única distribución invariante de traducción en los reales (la medida de Haar con respecto a la suma de reales), correspondiente a que la media es una medida de ubicación e invariancia de traducción. correspondiente a ninguna información sobre la ubicación.

Distribución gaussiana con parámetro de desviación estándar

Para la distribución gaussiana del valor real con fijo, la prioridad de Jeffreys para la desviación estándar es . De manera equivalente, la prioridad de Jeffreys para es la distribución uniforme no normalizada en la línea real y, por lo tanto, esta distribución también se conoce comoprevio logarítmico . Del mismo modo, el prior de Jeffreystambién es uniforme. Es el único (hasta un múltiplo) anterior (en los reales positivos) el que esde escala(lamedida de Haarcon respecto a la multiplicación de reales positivos), correspondiente a que la desviación estándar es una medida deescalay la invariancia de escala correspondiente a ninguna información sobre la escala. Al igual que con la distribución uniforme de los reales, se trata de unapriorización impropia.

Distribución de Poisson con parámetro de tasa.

Para la distribución de Poisson del número entero no negativo , el valor previo de Jeffreys para el parámetro de tasa es . De manera equivalente, el valor previo de Jeffreys para es la distribución uniforme no normalizada en la línea real no negativa.

juicio de Bernoulli

Para una moneda que tiene "cara" con probabilidad y "cruz" con probabilidad , para un dado la probabilidad es . El previo de Jeffreys para el parámetro es

Esta es la distribución arcoseno y es una distribución beta con . Además, si entonces , es decir, el anterior de Jeffreys para es uniforme en el intervalo . De manera equivalente, es uniforme en todo el círculo .

norteDado de dos caras con probabilidades sesgadas

De manera similar, para un lanzamiento de dado de una cara con probabilidades de resultado , cada una no negativa y satisfactoria , la prioridad de Jeffreys es la distribución de Dirichlet con todos los parámetros (alfa) establecidos en la mitad. Esto equivale a utilizar un pseudoconteo de la mitad para cada resultado posible.

De manera equivalente, si escribimos para cada , entonces el anterior de Jeffreys para es uniforme en la esfera unitaria de dimensiones ( es decir , es uniforme en la superficie de una bola unitaria de dimensiones ).

Generalizaciones

Coincidencia de probabilidad previa

En 1963, Welch y Peers demostraron que para un parámetro escalar θ, el prior de Jeffreys es "coincidente de probabilidad" en el sentido de que las probabilidades predictivas posteriores concuerdan con las probabilidades frecuentistas y los intervalos creíbles de un ancho elegido coinciden con los intervalos de confianza frecuentistas . [6] En un seguimiento, Peers demostró que esto no era cierto para el caso de múltiples parámetros, [7] en lugar de eso, condujo a la noción de coincidencias de probabilidad previas que solo se definen implícitamente como la distribución de probabilidad que resuelve un determinado diferencial parcial. ecuación que involucra la información de Fisher . [8]

α-paralelo anterior

Utilizando herramientas de la geometría de la información , el prior de Jeffreys puede generalizarse en pos de obtener priores que codifiquen información geométrica del modelo estadístico, de manera que sea invariante ante un cambio de coordenada de parámetros. [9] Un caso especial, el llamado previo de Weyl, se define como una forma de volumen en una variedad de Weyl . [10] 

Referencias

  1. ^ Jeffreys H (1946). "Una forma invariante para la probabilidad a priori en problemas de estimación". Actas de la Royal Society de Londres . Serie A, Ciencias Físicas y Matemáticas. 186 (1007): 453–461. Código bibliográfico : 1946RSPSA.186..453J. doi :10.1098/rspa.1946.0056. JSTOR  97883. PMID  20998741.
  2. ^ Jaynes ET (septiembre de 1968). "Probabilidades previas" (PDF) . Transacciones IEEE sobre ciencia de sistemas y cibernética . 4 (3): 227–241. doi :10.1109/TSSC.1968.300117.
  3. ^ Firth, David (1992). "Reducción de sesgos, Jeffreys prior y GLIM". En Fahrmeir, Ludwig; Francisco, Brian; Gilchrist, Robert; Tutz, Gerhard (eds.). Avances en GLIM y Modelización Estadística . Nueva York: Springer. págs. 91-100. doi :10.1007/978-1-4612-2952-0_15. ISBN 0-387-97873-9.
  4. ^ Magis, David (2015). "Una nota sobre la probabilidad ponderada y la estimación modal de Jeffreys de los niveles de competencia en modelos de respuesta a ítems politómicos". Psicometrika . 80 : 200–204. doi :10.1007/s11336-013-9378-5.
  5. ^ Robert CP, Chopin N, Rousseau J (2009). "Revisión de la teoría de la probabilidad de Harold Jeffreys". Ciencia estadística . 24 (2). arXiv : 0804.3173 . doi : 10.1214/09-STS284 .
  6. ^ Welch, BL; Compañeros, HW (1963). "Sobre fórmulas para puntos de confianza basadas en integrales de probabilidades ponderadas". Revista de la Real Sociedad de Estadística . Serie B (Metodológica). 25 (2): 318–329. doi :10.1111/j.2517-6161.1963.tb00512.x.
  7. ^ Compañeros, HW (1965). "Sobre puntos de confianza y puntos de probabilidad bayesianos en el caso de varios parámetros". Revista de la Real Sociedad de Estadística . Serie B (Metodológica). 27 (1): 9–16. doi :10.1111/j.2517-6161.1965.tb00581.x.
  8. ^ Scricciolo, Catia (1999). "Antecedentes de coincidencia de probabilidad: una revisión". Revista de la Sociedad Italiana de Estadística . 8 . 83.doi : 10.1007 /BF03178943.
  9. ^ Takeuchi, J.; Amari, S. (2005). "Prior α-paralelo y sus propiedades". Transacciones IEEE sobre teoría de la información . 51 (3): 1011-1023. doi :10.1109/TIT.2004.842703.
  10. ^ Jiang, Ruichao; Tavakoli, Javad; Zhao, Yiqiang (2020). "Estadísticas bayesianas y de Weyl Prior". Entropía . 22 (4). 467.doi : 10.3390 /e22040467 . PMC 7516948 . 

Otras lecturas