Criterio de información bayesiano

En estadística , el criterio de información bayesiano ( BIC ) o criterio de información de Schwarz (también SIC , SBC , SBIC ) es un criterio para la selección de modelos entre un conjunto finito de modelos; Generalmente se prefieren los modelos con BIC más bajo. Se basa, en parte, en la función de verosimilitud y está estrechamente relacionado con el criterio de información de Akaike (AIC).

Al ajustar modelos, es posible aumentar la probabilidad máxima agregando parámetros, pero hacerlo puede resultar en un sobreajuste . Tanto BIC como AIC intentan resolver este problema introduciendo un término de penalización para la cantidad de parámetros en el modelo; el término de penalización es mayor en BIC que en AIC para tamaños de muestra superiores a 7. ^[1]

El BIC fue desarrollado por Gideon E. Schwarz y publicado en un artículo de 1978, ^[2] donde dio un argumento bayesiano para adoptarlo.

Definición

El BIC se define formalmente como ^[3]^[a]

\mathrm {BIC} =k\ln(n)-2\ln({\widehat {L}}).\

dónde

${\sombrero {L}}$ = el valor maximizado de la función de verosimilitud del modelo , es decir , donde están los valores de los parámetros que maximizan la función de verosimilitud y son los datos observados; $M$ ${\hat {L}}=p(x\mid {\widehat {\theta }},M)$ ${\widehat {\theta }}$ $x$
$n$ = el número de puntos de datos en , el número de observaciones o, equivalentemente, el tamaño de la muestra; $x$
$k$ = el número de parámetros estimados por el modelo. Por ejemplo, en la regresión lineal múltiple , los parámetros estimados son la intersección, los parámetros de pendiente y la varianza constante de los errores; de este modo, . $q$ $k=q+2$

Derivación

El BIC se puede derivar integrando los parámetros del modelo utilizando el método de Laplace , comenzando con la siguiente evidencia del modelo : ^[5]^[6]^{: 217}

p(x\mid M)=\int p(x\mid \theta ,M)\pi (\theta \mid M)\,d\theta

¿Dónde está el modelo anterior para el inferior ? $\pi (\theta \mid M)$ $\theta$ $M$

Luego, la probabilidad logarítmica , se expande a una serie de Taylor de segundo orden sobre el MLE , suponiendo que es dos veces diferenciable de la siguiente manera: $\ln(p(x|\theta ,M))$ ${\widehat {\theta }}$

\ln(p(x\mid \theta ,M))=\ln({\widehat {L}})-{\frac {n}{2}}(\theta -{\widehat {\theta }})^{\operatorname {T} }{\mathcal {I}}(\theta )(\theta -{\widehat {\theta }})+R(x,\theta ),

donde es la información promedio observada por observación y denota el término residual. En la medida en que sea insignificante y relativamente lineal cerca de , podemos integrar para obtener lo siguiente: ${\mathcal {I}}(\theta )$ $R(x,\theta )$ $R(x,\theta )$ $\pi (\theta \mid M)$ ${\widehat {\theta }}$ $\theta$

p(x\mid M)\approx {\hat {L}}{\left({\frac {2\pi }{n}}\right)}^{\frac {k}{2}}|{\mathcal {I}}({\widehat {\theta }})|^{-{\frac {1}{2}}}\pi ({\widehat {\theta }})

A medida que aumenta, podemos ignorar y como son . De este modo, $n$ $|{\mathcal {I}}({\widehat {\theta }})|$ $\pi ({\widehat {\theta }})$ $O(1)$

p(x\mid M)=\exp \left(\ln {\widehat {L}}-{\frac {k}{2}}\ln(n)+O(1)\right)=\exp \left(-{\frac {\mathrm {BIC} }{2}}+O(1)\right),

donde BIC se define como anteriormente, y (a) es el modo posterior bayesiano o (b) usa el MLE y el anterior tiene una pendiente distinta de cero en el MLE. Luego la parte posterior ${\widehat {L}}$ $\pi (\theta \mid M)$

p(M\mid x)\propto p(x\mid M)p(M)\approx \exp \left(-{\frac {\mathrm {BIC} }{2}}\right)p(M)

Uso

Al elegir entre varios modelos, generalmente se prefieren los que tienen valores BIC más bajos. El BIC es una función creciente de la varianza del error y una función creciente de k . Es decir, la variación inexplicable en la variable dependiente y el número de variables explicativas aumentan el valor del BIC. Sin embargo, un BIC más bajo no necesariamente indica que un modelo sea mejor que otro. Debido a que implica aproximaciones, el BIC es meramente una heurística. En particular, las diferencias en BIC nunca deben tratarse como factores de Bayes transformados. $\sigma _{e}^{2}$

Es importante tener en cuenta que el BIC se puede utilizar para comparar modelos estimados sólo cuando los valores numéricos de la variable dependiente ^[b] son idénticos para todos los modelos que se comparan. No es necesario que los modelos que se comparan estén anidados , a diferencia del caso en el que los modelos se comparan mediante una prueba F o una prueba de razón de verosimilitud . ^{[ cita necesaria ]}

Propiedades

El BIC generalmente penaliza los parámetros libres con más fuerza que el criterio de información de Akaike , aunque depende del tamaño de n y de la magnitud relativa de n y k .
Es independiente del anterior.
Puede medir la eficiencia del modelo parametrizado en términos de predicción de los datos.
Penaliza la complejidad del modelo donde la complejidad se refiere a la cantidad de parámetros en el modelo.
Es aproximadamente igual al criterio de longitud mínima de descripción pero con signo negativo.
Se puede utilizar para elegir el número de grupos de acuerdo con la complejidad intrínseca presente en un conjunto de datos en particular.
Está estrechamente relacionado con otros criterios de probabilidad penalizados, como el criterio de información de desviación y el criterio de información de Akaike .

Limitaciones

El BIC adolece de dos limitaciones principales ^[7]

La aproximación anterior solo es válida para un tamaño de muestra mucho mayor que el número de parámetros del modelo. $n$ $k$
el BIC no puede manejar colecciones complejas de modelos como en el problema de selección de variables (o selección de características ) en alta dimensión. ^[7]

Caso especial gaussiano

Bajo el supuesto de que los errores o perturbaciones del modelo son independientes y están distribuidos idénticamente según una distribución normal y la condición de frontera de que la derivada de la probabilidad logarítmica con respecto a la varianza verdadera sea cero, esto se convierte en ( hasta una constante aditiva , que depende sólo en n y no en el modelo): ^[8]

\mathrm {BIC} =n\ln({\widehat {\sigma _{e}^{2}}})+k\ln(n)\

¿Dónde está la varianza del error? La varianza del error en este caso se define como ${\widehat {\sigma _{e}^{2}}}$

{\widehat {\sigma _{e}^{2}}}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\widehat {x_{i}}})^{2}.

que es un estimador sesgado de la varianza verdadera .

En términos de la suma residual de cuadrados (RSS), el BIC es

\mathrm {BIC} =n\ln(RSS/n)+k\ln(n)\

Al probar varios modelos lineales frente a un modelo saturado, el BIC se puede reescribir en términos de desviación como: ^[9] $\chi ^{2}$

\mathrm {BIC} =\chi ^{2}+k\ln(n)

¿Dónde está el número de parámetros del modelo en la prueba? $k$

Ver también

Notas

^ El AIC, AICc y BIC definidos por Claeskens y Hjort ^[4] son los negativos de los definidos en este artículo y en la mayoría de las otras referencias estándar.
^ Una variable dependiente también se llama variable de respuesta o variable de resultado . Ver Análisis de regresión .

Referencias

^ Véase el artículo de revisión: Stoica, P.; Selen, Y. (2004), "Selección de orden de modelo: una revisión de las reglas de criterios de información", IEEE Signal Processing Magazine (julio): 36–47, doi :10.1109/MSP.2004.1311138, S2CID 17338979.
^ Schwarz, Gideon E. (1978), "Estimación de la dimensión de un modelo", Annals of Statistics , 6 (2): 461–464, doi : 10.1214/aos/1176344136 , MR 0468014.
^ Ingenio, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). "'Todos los modelos están equivocados...': una introducción a la incertidumbre de los modelos" (PDF) . Statistica Neerlandica . 66 (3): 217–236. doi :10.1111/j.1467-9574.2012.00530.x. S2CID 7793470.
^ Claeskens, G .; Hjort, NL (2008), Selección de modelos y promedio de modelos , Cambridge University Press
^ Vigas, AE (1995). "Selección de modelos bayesianos en investigación social". Metodología Sociológica . 25 : 111-196. doi :10.2307/271063.
^ Konishi, Sadanori; Kitagawa, Genshiro (2008). Criterios de información y modelización estadística . Saltador. ISBN 978-0-387-71886-6.
^ ab Giraud, C. (2015). Introducción a la estadística de altas dimensiones . Chapman y Hall/CRC. ISBN 9781482237948.
^ Priestley, MB (1981). Análisis espectral y series temporales . Prensa académica . ISBN 978-0-12-564922-3.(pág. 375).
^ Kass, Robert E.; Raftery, Adrian E. (1995), "Bayes Factors", Revista de la Asociación Estadounidense de Estadística , 90 (430): 773–795, doi :10.2307/2291091, ISSN 0162-1459, JSTOR 2291091.

Otras lecturas

Bhat, HS; Kumar, N (2010). "Sobre la derivación del criterio de información bayesiano" (PDF) . Archivado desde el original (PDF) el 28 de marzo de 2012.
Findley, DF (1991). "Contraejemplos de la parsimonia y BIC". Anales del Instituto de Matemática Estadística . 43 (3): 505–514. doi :10.1007/BF00053369. S2CID 58910242.
Kass, RE; Wasserman, L. (1995). "Una prueba bayesiana de referencia para hipótesis anidadas y su relación con el criterio de Schwarz". Revista de la Asociación Estadounidense de Estadística . 90 (431): 928–934. doi :10.2307/2291327. JSTOR 2291327.
Liddle, AR (2007). "Criterios de información para la selección de modelos astrofísicos". Avisos mensuales de la Real Sociedad Astronómica . 377 (1): L74-L78. arXiv : astro-ph/0701113 . Código Bib : 2007MNRAS.377L..74L. doi :10.1111/j.1745-3933.2007.00306.x. S2CID 2884450.
McQuarrie, ADR; Tsai, C.-L. (1998). Selección de modelos de regresión y series temporales . Científico Mundial .

enlaces externos

Modelado autorregresivo de vectores dispersos