stringtranslate.com

Criterio de información bayesiano

En estadística , el criterio de información bayesiano ( BIC ) o criterio de información de Schwarz (también SIC , SBC , SBIC ) es un criterio para la selección de modelos entre un conjunto finito de modelos; generalmente se prefieren los modelos con un BIC más bajo. Se basa, en parte, en la función de verosimilitud y está estrechamente relacionado con el criterio de información de Akaike (AIC).

Al ajustar modelos, es posible aumentar la máxima verosimilitud añadiendo parámetros, pero al hacerlo se puede producir un sobreajuste . Tanto BIC como AIC intentan resolver este problema introduciendo un término de penalización para la cantidad de parámetros en el modelo; el término de penalización es mayor en BIC que en AIC para tamaños de muestra mayores a 7. [1]

El BIC fue desarrollado por Gideon E. Schwarz y publicado en un artículo de 1978, [2] donde presentó un argumento bayesiano para adoptarlo.

Definición

El BIC se define formalmente como [3] [a]

dónde

Derivación

El BIC se puede obtener integrando los parámetros del modelo utilizando el método de Laplace , comenzando con la siguiente evidencia del modelo : [5] [6] : 217 

¿Dónde está el anterior para el modelo inferior ?

La verosimilitud logarítmica, , se expande luego a una serie de Taylor de segundo orden sobre la MLE , , asumiendo que es dos veces diferenciable de la siguiente manera:

donde es la información observada promedio por observación y denota el término residual. En la medida en que es despreciable y es relativamente lineal cerca de , podemos integrar para obtener lo siguiente:

A medida que aumenta, podemos ignorar y ya que son . Por lo tanto,

donde BIC se define como se indica anteriormente y (a) es el modo posterior bayesiano o (b) utiliza el MLE y la anterior tiene una pendiente distinta de cero en el MLE. Entonces, el posterior

Uso

Al elegir entre varios modelos, generalmente se prefieren aquellos con valores de BIC más bajos. El BIC es una función creciente de la varianza del error y una función creciente de k . Es decir, la variación no explicada en la variable dependiente y el número de variables explicativas aumentan el valor del BIC. Sin embargo, un BIC más bajo no necesariamente indica que un modelo sea mejor que otro. Debido a que implica aproximaciones, el BIC es meramente una heurística. En particular, las diferencias en el BIC nunca deben tratarse como factores de Bayes transformados.

Es importante tener en cuenta que el BIC se puede utilizar para comparar modelos estimados solo cuando los valores numéricos de la variable dependiente [b] son ​​idénticos para todos los modelos que se comparan. Los modelos que se comparan no necesitan estar anidados , a diferencia del caso cuando los modelos se comparan utilizando una prueba F o una prueba de razón de verosimilitud . [ cita requerida ]

Propiedades

Limitaciones

El BIC adolece de dos limitaciones principales [7]

  1. La aproximación anterior sólo es válida para tamaños de muestra mucho mayores que el número de parámetros del modelo.
  2. El BIC no puede manejar colecciones complejas de modelos como en el problema de selección de variables (o selección de características ) en alta dimensión. [7]

Caso especial gaussiano

Suponiendo que los errores o perturbaciones del modelo son independientes y se distribuyen de forma idéntica según una distribución normal y la condición límite de que la derivada de la verosimilitud con respecto a la varianza verdadera es cero, esto se convierte en ( hasta una constante aditiva , que depende sólo de n y no del modelo): [8]

donde es la varianza del error. La varianza del error en este caso se define como

que es un estimador sesgado de la varianza verdadera .

En términos de la suma residual de cuadrados (RSS), el BIC es

Al probar múltiples modelos lineales contra un modelo saturado, el BIC se puede reescribir en términos de la desviación como: [9]

donde es el número de parámetros del modelo en la prueba.

Véase también

Notas

  1. ^ Los AIC, AICc y BIC definidos por Claeskens y Hjort [4] son ​​los negativos de los definidos en este artículo y en la mayoría de las otras referencias estándar.
  2. ^ Una variable dependiente también se denomina variable de respuesta o variable de resultado . Véase Análisis de regresión .

Referencias

  1. ^ Véase el artículo de revisión: Stoica, P.; Selen, Y. (2004), "Selección de orden de modelo: una revisión de las reglas de criterio de información", IEEE Signal Processing Magazine (julio): 36–47, doi :10.1109/MSP.2004.1311138, S2CID  17338979.
  2. ^ Schwarz, Gideon E. (1978), "Estimación de la dimensión de un modelo", Annals of Statistics , 6 (2): 461–464, doi : 10.1214/aos/1176344136 , MR  0468014.
  3. ^ Ingenio, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). "'Todos los modelos están equivocados...': una introducción a la incertidumbre de los modelos" (PDF) . Statistica Neerlandica . 66 (3): 217–236. doi :10.1111/j.1467-9574.2012.00530.x. S2CID  7793470.
  4. ^ Claeskens, G .; Hjort, NL (2008), Selección de modelos y promedio de modelos , Cambridge University Press
  5. ^ Raftery, AE (1995). "Selección de modelos bayesianos en la investigación social". Metodología sociológica . 25 : 111–196. doi :10.2307/271063. JSTOR  271063.
  6. ^ Konishi, Sadanori; Kitagawa, Genshiro (2008). Criterios de información y modelización estadística . Saltador. ISBN 978-0-387-71886-6.
  7. ^ ab Giraud, C. (2015). Introducción a la estadística de alta dimensión . Chapman & Hall/CRC. ISBN 9781482237948.
  8. ^ Priestley, MB (1981). Análisis espectral y series temporales . Academic Press . ISBN. 978-0-12-564922-3.(pág. 375).
  9. ^ Kass, Robert E.; Raftery, Adrian E. (1995), "Factores de Bayes", Revista de la Asociación Estadounidense de Estadística , 90 (430): 773–795, doi :10.2307/2291091, ISSN  0162-1459, JSTOR  2291091.

Lectura adicional

Enlaces externos