Criterio para la selección del modelo.
En estadística , el criterio de información bayesiano ( BIC ) o criterio de información de Schwarz (también SIC , SBC , SBIC ) es un criterio para la selección de modelos entre un conjunto finito de modelos; Generalmente se prefieren los modelos con BIC más bajo. Se basa, en parte, en la función de verosimilitud y está estrechamente relacionado con el criterio de información de Akaike (AIC).
Al ajustar modelos, es posible aumentar la probabilidad máxima agregando parámetros, pero hacerlo puede resultar en un sobreajuste . Tanto BIC como AIC intentan resolver este problema introduciendo un término de penalización para la cantidad de parámetros en el modelo; el término de penalización es mayor en BIC que en AIC para tamaños de muestra superiores a 7. [1]
El BIC fue desarrollado por Gideon E. Schwarz y publicado en un artículo de 1978, [2] donde dio un argumento bayesiano para adoptarlo.
Definición
El BIC se define formalmente como [3] [a]
![{\displaystyle \mathrm {BIC} =k\ln(n)-2\ln({\widehat {L}}).\ }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde
= el valor maximizado de la función de verosimilitud del modelo , es decir , donde están los valores de los parámetros que maximizan la función de verosimilitud y son los datos observados;![{\displaystyle M}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\hat {L}}=p(x\mid {\widehat {\theta }},M)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\widehat {\theta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle x}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
= el número de puntos de datos en , el número de observaciones o, equivalentemente, el tamaño de la muestra;![{\displaystyle x}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
= el número de parámetros estimados por el modelo. Por ejemplo, en la regresión lineal múltiple , los parámetros estimados son la intersección, los parámetros de pendiente y la varianza constante de los errores; de este modo, .![{\displaystyle q}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle k=q+2}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Derivación
El BIC se puede derivar integrando los parámetros del modelo utilizando el método de Laplace , comenzando con la siguiente evidencia del modelo : [5] [6] : 217
![{\displaystyle p(x\mid M)=\int p(x\mid \theta ,M)\pi (\theta \mid M)\,d\theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
¿Dónde está el modelo anterior para el inferior ?![{\displaystyle \pi (\theta \mid M)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle M}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Luego, la probabilidad logarítmica , se expande a una serie de Taylor de segundo orden sobre el MLE , suponiendo que es dos veces diferenciable de la siguiente manera:![{\displaystyle \ln(p(x|\theta ,M))}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\widehat {\theta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \ln(p(x\mid \theta ,M))=\ln({\widehat {L}})-{\frac {n}{2}}(\theta -{\widehat {\theta }})^{\operatorname {T} }{\mathcal {I}}(\theta )(\theta -{\widehat {\theta }})+R(x,\theta ),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde es la información promedio observada por observación y denota el término residual. En la medida en que sea insignificante y relativamente lineal cerca de , podemos integrar para obtener lo siguiente:![{\displaystyle {\mathcal {I}}(\theta)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle R(x,\theta)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle R(x,\theta)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \pi (\theta \mid M)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\widehat {\theta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \theta}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(x\mid M)\approx {\hat {L}}{\left({\frac {2\pi }{n}}\right)}^{\frac {k}{2}} |{\mathcal {I}}({\widehat {\theta }})|^{-{\frac {1}{2}}}\pi ({\widehat {\theta }})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
A medida que aumenta, podemos ignorar y como son . De este modo,![{\displaystyle n}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle |{\mathcal {I}}({\widehat {\theta }})|}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \pi ({\widehat {\theta }})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle O(1)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(x\mid M)=\exp \left(\ln {\widehat {L}}-{\frac {k}{2}}\ln(n)+O(1)\right)= \exp \left(-{\frac {\mathrm {BIC} }{2}}+O(1)\right),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde BIC se define como anteriormente, y (a) es el modo posterior bayesiano o (b) usa el MLE y el anterior tiene una pendiente distinta de cero en el MLE. Luego la parte posterior![{\displaystyle {\widehat {L}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \pi (\theta \mid M)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(M\mid x)\propto p(x\mid M)p(M)\approx \exp \left(-{\frac {\mathrm {BIC} }{2}}\right)p( METRO)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Uso
Al elegir entre varios modelos, generalmente se prefieren los que tienen valores BIC más bajos. El BIC es una función creciente de la varianza del error y una función creciente de k . Es decir, la variación inexplicable en la variable dependiente y el número de variables explicativas aumentan el valor del BIC. Sin embargo, un BIC más bajo no necesariamente indica que un modelo sea mejor que otro. Debido a que implica aproximaciones, el BIC es meramente una heurística. En particular, las diferencias en BIC nunca deben tratarse como factores de Bayes transformados.![{\displaystyle \sigma _ {e}^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Es importante tener en cuenta que el BIC se puede utilizar para comparar modelos estimados sólo cuando los valores numéricos de la variable dependiente [b] son idénticos para todos los modelos que se comparan. No es necesario que los modelos que se comparan estén anidados , a diferencia del caso en el que los modelos se comparan mediante una prueba F o una prueba de razón de verosimilitud . [ cita necesaria ]
Propiedades
- El BIC generalmente penaliza los parámetros libres con más fuerza que el criterio de información de Akaike , aunque depende del tamaño de n y de la magnitud relativa de n y k .
- Es independiente del anterior.
- Puede medir la eficiencia del modelo parametrizado en términos de predicción de los datos.
- Penaliza la complejidad del modelo donde la complejidad se refiere a la cantidad de parámetros en el modelo.
- Es aproximadamente igual al criterio de longitud mínima de descripción pero con signo negativo.
- Se puede utilizar para elegir el número de grupos de acuerdo con la complejidad intrínseca presente en un conjunto de datos en particular.
- Está estrechamente relacionado con otros criterios de probabilidad penalizados, como el criterio de información de desviación y el criterio de información de Akaike .
Limitaciones
El BIC adolece de dos limitaciones principales [7]
- La aproximación anterior solo es válida para un tamaño de muestra mucho mayor que el número de parámetros del modelo.
![{\displaystyle n}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle k}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- el BIC no puede manejar colecciones complejas de modelos como en el problema de selección de variables (o selección de características ) en alta dimensión. [7]
Caso especial gaussiano
Bajo el supuesto de que los errores o perturbaciones del modelo son independientes y están distribuidos idénticamente según una distribución normal y la condición de frontera de que la derivada de la probabilidad logarítmica con respecto a la varianza verdadera sea cero, esto se convierte en ( hasta una constante aditiva , que depende sólo en n y no en el modelo): [8]
![{\displaystyle \mathrm {BIC} =n\ln({\widehat {\sigma _{e}^{2}}})+k\ln(n)\ }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
¿Dónde está la varianza del error? La varianza del error en este caso se define como![{\displaystyle {\widehat {\sigma _ {e}^{2}}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\widehat {\sigma _{e}^{2}}}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\ sombrero ancho {x_ {i}}}) ^ {2}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
que es un estimador sesgado de la varianza verdadera .
En términos de la suma residual de cuadrados (RSS), el BIC es
![{\displaystyle \mathrm {BIC} =n\ln(RSS/n)+k\ln(n)\ }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Al probar varios modelos lineales frente a un modelo saturado, el BIC se puede reescribir en términos de desviación como: [9]![{\displaystyle \chi^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathrm {BIC} =\chi ^{2}+k\ln(n)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
¿Dónde está el número de parámetros del modelo en la prueba?![{\displaystyle k}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Ver también
Notas
- ^ El AIC, AICc y BIC definidos por Claeskens y Hjort [4] son los negativos de los definidos en este artículo y en la mayoría de las otras referencias estándar.
- ^ Una variable dependiente también se llama variable de respuesta o variable de resultado . Ver Análisis de regresión .
Referencias
- ^ Véase el artículo de revisión: Stoica, P.; Selen, Y. (2004), "Selección de orden de modelo: una revisión de las reglas de criterios de información", IEEE Signal Processing Magazine (julio): 36–47, doi :10.1109/MSP.2004.1311138, S2CID 17338979.
- ^ Schwarz, Gideon E. (1978), "Estimación de la dimensión de un modelo", Annals of Statistics , 6 (2): 461–464, doi : 10.1214/aos/1176344136 , MR 0468014.
- ^ Ingenio, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). "'Todos los modelos están equivocados...': una introducción a la incertidumbre de los modelos" (PDF) . Statistica Neerlandica . 66 (3): 217–236. doi :10.1111/j.1467-9574.2012.00530.x. S2CID 7793470.
- ^ Claeskens, G .; Hjort, NL (2008), Selección de modelos y promedio de modelos , Cambridge University Press
- ^ Vigas, AE (1995). "Selección de modelos bayesianos en investigación social". Metodología Sociológica . 25 : 111-196. doi :10.2307/271063.
- ^ Konishi, Sadanori; Kitagawa, Genshiro (2008). Criterios de información y modelización estadística . Saltador. ISBN 978-0-387-71886-6.
- ^ ab Giraud, C. (2015). Introducción a la estadística de altas dimensiones . Chapman y Hall/CRC. ISBN 9781482237948.
- ^ Priestley, MB (1981). Análisis espectral y series temporales . Prensa académica . ISBN 978-0-12-564922-3.(pág. 375).
- ^ Kass, Robert E.; Raftery, Adrian E. (1995), "Bayes Factors", Revista de la Asociación Estadounidense de Estadística , 90 (430): 773–795, doi :10.2307/2291091, ISSN 0162-1459, JSTOR 2291091.
Otras lecturas
enlaces externos
- Modelado autorregresivo de vectores dispersos