Criterio de información de Akaike

El criterio de información de Akaike ( AIC ) es un estimador del error de predicción y, por lo tanto, de la calidad relativa de los modelos estadísticos para un conjunto dado de datos. ^[1]^[2]^[3] Dada una colección de modelos para los datos, el AIC estima la calidad de cada modelo, en relación con cada uno de los otros modelos. Por lo tanto, el AIC proporciona un medio para la selección de modelos .

El AIC se basa en la teoría de la información . Cuando se utiliza un modelo estadístico para representar el proceso que generó los datos, la representación casi nunca será exacta; por lo tanto, se perderá cierta información al utilizar el modelo para representar el proceso. El AIC estima la cantidad relativa de información que pierde un modelo determinado: cuanto menos información pierde un modelo, mayor es su calidad.

Al estimar la cantidad de información que pierde un modelo, el AIC se ocupa del equilibrio entre la bondad de ajuste del modelo y su simplicidad. En otras palabras, el AIC se ocupa tanto del riesgo de sobreajuste como del riesgo de subajuste.

El criterio de información de Akaike recibe su nombre del estadístico japonés Hirotsugu Akaike , quien lo formuló. Actualmente constituye la base de un paradigma para los fundamentos de la estadística y también se utiliza ampliamente para la inferencia estadística .

Definición

Supongamos que tenemos un modelo estadístico de algunos datos. Sea $k$ el número de parámetros estimados en el modelo. Sea el valor maximizado de la función de verosimilitud para el modelo. Entonces, el valor AIC del modelo es el siguiente. ^[4]^[5] ${\hat {L}}$

\mathrm {AIC} \,=\,2k-2\ln({\hat {L}})

Dado un conjunto de modelos candidatos para los datos, el modelo preferido es el que tiene el valor AIC mínimo. Por lo tanto, el AIC recompensa la bondad del ajuste (evaluada por la función de verosimilitud), pero también incluye una penalización que es una función creciente del número de parámetros estimados. La penalización desalienta el sobreajuste , lo cual es deseable porque aumentar el número de parámetros en el modelo casi siempre mejora la bondad del ajuste.

La AIC se basa en la teoría de la información . Supongamos que los datos son generados por algún proceso desconocido f . Consideramos dos modelos candidatos para representar f : g ₁ y g _2. Si conociéramos f , entonces podríamos encontrar la información perdida al usar g ₁ para representar f calculando la divergencia de Kullback-Leibler , D _KL ( f ‖ g ₁ ) ; de manera similar, la información perdida al usar g ₂ para representar f podría encontrarse calculando D _KL ( f ‖ g ₂ ) . Entonces, generalmente, elegiríamos el modelo candidato que minimizara la pérdida de información.

No podemos elegir con certeza, porque no conocemos f . Akaike (1974) demostró, sin embargo, que podemos estimar, mediante AIC, cuánta más (o menos) información se pierde con g ₁ que con g ₂ . Sin embargo, la estimación solo es válida asintóticamente ; si el número de puntos de datos es pequeño, entonces a menudo es necesaria alguna corrección (ver AICc, a continuación).

Tenga en cuenta que el AIC no indica nada sobre la calidad absoluta de un modelo, solo la calidad relativa a otros modelos. Por lo tanto, si todos los modelos candidatos no se ajustan bien, el AIC no dará ninguna advertencia al respecto. Por lo tanto, después de seleccionar un modelo mediante el AIC, suele ser una buena práctica validar la calidad absoluta del modelo. Dicha validación suele incluir comprobaciones de los residuos del modelo (para determinar si los residuos parecen aleatorios) y pruebas de las predicciones del modelo. Para obtener más información sobre este tema, consulte la validación de modelos estadísticos .

Cómo utilizar AIC en la práctica

Para aplicar el AIC en la práctica, comenzamos con un conjunto de modelos candidatos y luego buscamos los valores AIC correspondientes a los modelos. Casi siempre habrá pérdida de información debido al uso de un modelo candidato para representar el "modelo verdadero", es decir, el proceso que generó los datos. Deseamos seleccionar, entre los modelos candidatos, el modelo que minimice la pérdida de información. No podemos elegir con certeza, pero podemos minimizar la pérdida de información estimada.

Supongamos que hay R modelos candidatos. Denotemos los valores AIC de esos modelos por AIC ₁ , AIC ₂ , AIC ₃ , ..., AIC _R . Sea AIC _min el mínimo de esos valores. Entonces la cantidad exp((AIC _min − AIC _i )/2) puede interpretarse como proporcional a la probabilidad de que el i ésimo modelo minimice la pérdida de información (estimada). ^[6]

Como ejemplo, supongamos que hay tres modelos candidatos, cuyos valores AIC son 100, 102 y 110. Entonces, el segundo modelo es $exp((100 - 102)/2) = 0,368$ veces más probable que el primer modelo para minimizar la pérdida de información. De manera similar, el tercer modelo es $exp((100 - 110)/2) = 0,007$ veces más probable que el primer modelo para minimizar la pérdida de información.

En este ejemplo, omitiríamos el tercer modelo de la consideración posterior. Entonces tenemos tres opciones: (1) recopilar más datos, con la esperanza de que esto permita distinguir claramente entre los dos primeros modelos; (2) simplemente concluir que los datos son insuficientes para respaldar la selección de un modelo entre los dos primeros; (3) tomar un promedio ponderado de los dos primeros modelos, con pesos proporcionales a 1 y 0,368, respectivamente, y luego realizar una inferencia estadística basada en el multimodelo ponderado . ^[7]

La cantidad $exp((AIC min - AIC i)/2)$ se conoce como la verosimilitud relativa del modelo i . Está estrechamente relacionada con la razón de verosimilitud utilizada en la prueba de razón de verosimilitud . De hecho, si todos los modelos en el conjunto de candidatos tienen el mismo número de parámetros, entonces el uso de AIC podría parecer a primera vista muy similar al uso de la prueba de razón de verosimilitud. Sin embargo, existen distinciones importantes. En particular, la prueba de razón de verosimilitud es válida solo para modelos anidados , mientras que AIC (y AICc) no tiene tal restricción. ^[8]^[9]

Prueba de hipótesis

Toda prueba de hipótesis estadística puede formularse como una comparación de modelos estadísticos. Por lo tanto, toda prueba de hipótesis estadística puede replicarse mediante AIC. En las subsecciones siguientes se describen brevemente dos ejemplos. Sakamoto, Ishiguro y Kitagawa (1986, Parte II) y Konishi y Kitagawa (2008, cap. 4) ofrecen detalles de esos ejemplos y de muchos otros.

Replicando el estudiantea-prueba

Como ejemplo de una prueba de hipótesis, considere la prueba t para comparar las medias de dos poblaciones con distribución normal . La entrada de la prueba t comprende una muestra aleatoria de cada una de las dos poblaciones.

Para formular la prueba como una comparación de modelos, construimos dos modelos diferentes. El primer modelo modela las dos poblaciones como si tuvieran medias y desviaciones típicas potencialmente diferentes. La función de verosimilitud para el primer modelo es, por lo tanto, el producto de las verosimilitudes de dos distribuciones normales distintas; por lo tanto, tiene cuatro parámetros: $μ$ $1$ $,$ $σ$ $1$ $,$ $μ$ $2$ $,$ $σ$ $2$ . Para ser explícitos, la función de verosimilitud es la siguiente (indicando los tamaños de muestra por $n$ $1$ y $n$ $2$ ).

{\mathcal {L}}(\mu _{1},\sigma _{1},\mu _{2},\sigma _{2})\,=\,

\;\;\;\;\;\;\;\;\prod _{i=1}^{n_{1}}{\frac {1}{{\sqrt {2\pi }}\sigma _{1}}}\exp \left(-{\frac {(x_{i}-\mu _{1})^{2}}{2\sigma _{1}^{2}}}\right)\;\,{\boldsymbol {\cdot }}\,\prod _{i=n_{1}+1}^{n_{1}+n_{2}}{\frac {1}{{\sqrt {2\pi }}\sigma _{2}}}\exp \left(-{\frac {(x_{i}-\mu _{2})^{2}}{2\sigma _{2}^{2}}}\right)

El segundo modelo modela las dos poblaciones como si tuvieran las mismas medias pero desviaciones estándar potencialmente diferentes. La función de verosimilitud del segundo modelo establece $μ 1 = μ 2$ en la ecuación anterior; por lo tanto, tiene tres parámetros.

A continuación, maximizamos las funciones de verosimilitud de los dos modelos (en la práctica, maximizamos las funciones de log-verosimilitud); después de eso, es fácil calcular los valores AIC de los modelos. A continuación, calculamos la verosimilitud relativa. Por ejemplo, si el segundo modelo fuera solo 0,01 veces más probable que el primero, omitiríamos el segundo modelo de la consideración posterior: por lo tanto, concluiríamos que las dos poblaciones tienen medias diferentes.

La prueba t presupone que las dos poblaciones tienen desviaciones estándar idénticas; la prueba tiende a ser poco fiable si la suposición es falsa y los tamaños de las dos muestras son muy diferentes ( la prueba t de Welch sería mejor). Comparar las medias de las poblaciones mediante el AIC, como en el ejemplo anterior, tiene la ventaja de no hacer tales suposiciones.

Comparación de conjuntos de datos categóricos

Para otro ejemplo de prueba de hipótesis, supongamos que tenemos dos poblaciones y que cada miembro de cada población está en una de dos categorías : categoría n.° 1 o categoría n.° 2. Cada población tiene una distribución binomial . Queremos saber si las distribuciones de las dos poblaciones son las mismas. Se nos da una muestra aleatoria de cada una de las dos poblaciones.

Sea $m$ el tamaño de la muestra de la primera población. Sea $m 1$ el número de observaciones (en la muestra) en la categoría n.° 1; por lo tanto, el número de observaciones en la categoría n.° 2 es $m - m 1$ . De manera similar, sea $n$ el tamaño de la muestra de la segunda población. Sea $n 1$ el número de observaciones (en la muestra) en la categoría n.° 1.

Sea $p$ la probabilidad de que un miembro elegido al azar de la primera población esté en la categoría n.° 1. Por lo tanto, la probabilidad de que un miembro elegido al azar de la primera población esté en la categoría n.° 2 es $1 - p$ . Nótese que la distribución de la primera población tiene un parámetro. Sea $q$ la probabilidad de que un miembro elegido al azar de la segunda población esté en la categoría n.° 1. Nótese que la distribución de la segunda población también tiene un parámetro.

Para comparar las distribuciones de las dos poblaciones, construimos dos modelos diferentes. El primer modelo modela las dos poblaciones como si tuvieran distribuciones potencialmente diferentes. La función de verosimilitud para el primer modelo es, por lo tanto, el producto de las verosimilitudes de dos distribuciones binomiales distintas; por lo tanto, tiene dos parámetros: $p$ , $q$ . Para ser explícitos, la función de verosimilitud es la siguiente.

{\mathcal {L}}(p,q)\,=\,{\frac {m!}{m_{1}!(m-m_{1})!}}p^{m_{1}}(1-p)^{m-m_{1}}\;\,{\boldsymbol {\cdot }}\;\;{\frac {n!}{n_{1}!(n-n_{1})!}}q^{n_{1}}(1-q)^{n-n_{1}}

El segundo modelo modela las dos poblaciones como si tuvieran la misma distribución. La función de verosimilitud del segundo modelo establece $p = q$ en la ecuación anterior; por lo tanto, el segundo modelo tiene un parámetro.

Fundamentos de estadística

En general, se considera que la inferencia estadística comprende la prueba de hipótesis y la estimación . La prueba de hipótesis se puede realizar mediante AIC, como se explicó anteriormente. En cuanto a la estimación, existen dos tipos: estimación puntual y estimación de intervalo . La estimación puntual se puede realizar dentro del paradigma AIC: se proporciona mediante la estimación de máxima verosimilitud . La estimación de intervalo también se puede realizar dentro del paradigma AIC: se proporciona mediante intervalos de verosimilitud . Por lo tanto, la inferencia estadística generalmente se puede realizar dentro del paradigma AIC.

Los paradigmas más utilizados para la inferencia estadística son la inferencia frecuentista y la inferencia bayesiana . Sin embargo, la AIC se puede utilizar para realizar inferencia estadística sin depender ni del paradigma frecuentista ni del paradigma bayesiano, ya que la AIC se puede interpretar sin la ayuda de niveles de significación o valores previos bayesianos . ^[10] En otras palabras, la AIC se puede utilizar para formar una base de estadística que sea distinta tanto del frecuentismo como del bayesianismo. ^[11]^[12]

Modificación para tamaño de muestra pequeño

Cuando el tamaño de la muestra es pequeño, existe una probabilidad sustancial de que AIC seleccione modelos que tengan demasiados parámetros, es decir, que AIC se sobreajuste. ^[13]^[14]^[15] Para abordar ese posible sobreajuste, se desarrolló AICc: AICc es AIC con una corrección para tamaños de muestra pequeños.

La fórmula para AICc depende del modelo estadístico. Suponiendo que el modelo es univariado , es lineal en sus parámetros y tiene residuos distribuidos normalmente (condicionados a los regresores), entonces la fórmula para AICc es la siguiente. ^[16]^[17]^[18]^[19]

\mathrm {AICc} \,=\,\mathrm {AIC} +{\frac {2k^{2}+2k}{nk-1}}

—donde $n$ denota el tamaño de la muestra y $k$ denota el número de parámetros. Por lo tanto, AICc es esencialmente AIC con un término de penalización adicional para el número de parámetros. Nótese que cuando $n \to \infty$ , el término de penalización adicional converge a 0 y, por lo tanto, AICc converge a AIC. ^[20]

Si no se cumple el supuesto de que el modelo es univariado y lineal con residuos normales, la fórmula para AICc será generalmente diferente de la fórmula anterior. Para algunos modelos, la fórmula puede ser difícil de determinar. Sin embargo, para cada modelo que tenga AICc disponible, la fórmula para AICc está dada por AIC más términos que incluyen tanto $k$ como $k$ ² . En comparación, la fórmula para AIC incluye $k$ pero no $k$ ² . En otras palabras, AIC es una estimación de primer orden (de la pérdida de información), mientras que AICc es una estimación de segundo orden . ^[21]

Burnham y Anderson (2002, cap. 7) y Konishi y Kitagawa (2008, cap. 7-8) ofrecen un análisis más detallado de la fórmula, con ejemplos de otros supuestos. En particular, con otros supuestos, la estimación bootstrap de la fórmula suele ser factible.

En resumen, AICc tiene la ventaja de tender a ser más preciso que AIC (especialmente para muestras pequeñas), pero AICc también tiene la desventaja de que a veces es mucho más difícil de calcular que AIC. Nótese que si todos los modelos candidatos tienen la misma $k$ y la misma fórmula para AICc, entonces AICc y AIC darán valoraciones idénticas (relativas); por lo tanto, no habrá ninguna desventaja en usar AIC, en lugar de AICc. Además, si $n$ es muchas veces mayor que $k$ ² , entonces el término de penalización adicional será insignificante; por lo tanto, la desventaja en usar AIC, en lugar de AICc, será insignificante.

Historia

El criterio de información de Akaike fue formulado por el estadístico Hirotsugu Akaike . Originalmente se lo denominó "criterio de información". ^[22] Akaike lo anunció por primera vez en inglés en un simposio de 1971; las actas del simposio se publicaron en 1973. ^[22]^[23] Sin embargo, la publicación de 1973 fue solo una presentación informal de los conceptos. ^[24] La primera publicación formal fue un artículo de Akaike de 1974. ^[5]

La derivación inicial del AIC se basó en algunas suposiciones sólidas. Takeuchi (1976) demostró que las suposiciones podían debilitarse mucho más. Sin embargo, el trabajo de Takeuchi estaba en japonés y no fue ampliamente conocido fuera de Japón durante muchos años. (Traducido en ^[25] )

Sugiura (1978) propuso originalmente el AIC para la regresión lineal (solamente). Esto dio origen al trabajo de Hurvich y Tsai (1989) y a varios artículos posteriores de los mismos autores, que ampliaron las situaciones en las que se podía aplicar el AICc.

La primera exposición general del enfoque de la teoría de la información fue el volumen de Burnham y Anderson (2002), que incluye una presentación en inglés del trabajo de Takeuchi. El volumen condujo a un uso mucho mayor del AIC y ahora cuenta con más de 64.000 citas en Google Scholar .

Akaike denominó su enfoque "principio de maximización de la entropía", porque el enfoque se basa en el concepto de entropía de la teoría de la información . De hecho, minimizar el AIC en un modelo estadístico es efectivamente equivalente a maximizar la entropía en un sistema termodinámico; en otras palabras, el enfoque de la teoría de la información en estadística consiste esencialmente en aplicar la Segunda Ley de la Termodinámica . Como tal, el AIC tiene sus raíces en el trabajo de Ludwig Boltzmann sobre la entropía . Para más información sobre estos temas, véase Akaike (1985) y Burnham & Anderson (2002, cap. 2).

Consejos de uso

Parámetros de conteo

Un modelo estadístico debe tener en cuenta los errores aleatorios . Un modelo de línea recta podría describirse formalmente como y _i = b ₀ + b ₁x _i + ε _i . Aquí, los ε _i son los residuos del ajuste de la línea recta. Si se supone que los ε _i son gaussianos iid (con media cero), entonces el modelo tiene tres parámetros: b ₀ , b ₁ y la varianza de las distribuciones gaussianas. Por lo tanto, al calcular el valor AIC de este modelo, deberíamos usar k = 3. De manera más general, para cualquier modelo de mínimos cuadrados con residuos gaussianos iid, la varianza de las distribuciones de los residuos debería contarse como uno de los parámetros. ^[26]

Como otro ejemplo, considere un modelo autorregresivo de primer orden , definido por x _i = c + φx _{i −1} + ε _i , donde ε _i es gaussiano iid (con media cero). Para este modelo, hay tres parámetros: c , φ y la varianza de ε _i . De manera más general, un modelo autorregresivo de orden p tiene $p + 2$ parámetros. (Sin embargo, si c no se estima a partir de los datos, sino que se proporciona de antemano, entonces solo hay $p + 1$ parámetros).

Transformando datos

Los valores AIC de los modelos candidatos deben calcularse todos con el mismo conjunto de datos. Sin embargo, a veces podríamos querer comparar un modelo de la variable de respuesta , $y$ , con un modelo del logaritmo de la variable de respuesta, $log(y)$ . De manera más general, podríamos querer comparar un modelo de los datos con un modelo de datos transformados . A continuación se muestra una ilustración de cómo manejar las transformaciones de datos (adaptada de Burnham & Anderson (2002, §2.11.3): "Los investigadores deben asegurarse de que todas las hipótesis se modelen utilizando la misma variable de respuesta").

Supongamos que queremos comparar dos modelos: uno con una distribución normal de $y$ y otro con una distribución normal de $log(y) .$ No deberíamos comparar directamente los valores AIC de los dos modelos. En su lugar, deberíamos transformar la función de distribución acumulativa normal para tomar primero el logaritmo de $y$ . Para ello, necesitamos realizar la integración relevante por sustitución : por lo tanto, necesitamos multiplicar por la derivada de la función logaritmo (natural) , que es $1/ y$ . Por lo tanto, la distribución transformada tiene la siguiente función de densidad de probabilidad :

y\mapsto \,{\frac {1}{y}}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\,\exp \left(-{\frac {\left(\ln y-\mu \right)^{2}}{2\sigma ^{2}}}\right)

—que es la función de densidad de probabilidad para la distribución log-normal . Luego comparamos el valor AIC del modelo normal con el valor AIC del modelo log-normal.

En el caso de modelos mal especificados, el criterio de información de Takeuchi (TIC) podría ser más adecuado. Sin embargo, el TIC suele sufrir inestabilidad causada por errores de estimación. ^[27]

Comparaciones con otros métodos de selección de modelos

La diferencia crítica entre AIC y BIC (y sus variantes) es la propiedad asintótica bajo clases de modelos bien especificadas y mal especificadas. ^[28] Sus diferencias fundamentales han sido bien estudiadas en problemas de selección de variables de regresión y selección de orden de autorregresión ^[29] . En general, si el objetivo es la predicción, se prefieren AIC y validaciones cruzadas de dejar uno fuera. Si el objetivo es la selección, la inferencia o la interpretación, se prefieren BIC o validaciones cruzadas de dejar muchos fuera. Ding et al. (2018) ofrecen una descripción general completa de AIC y otros métodos populares de selección de modelos ^{[30] .}

Comparación con BIC

La fórmula del criterio de información bayesiano (BIC) es similar a la fórmula del AIC, pero con una penalización diferente para el número de parámetros. Con AIC la penalización es $2 k$ , mientras que con BIC la penalización es $ln(n) k$ .

Burnham y Anderson (2002, §6.3-6.4) ofrecen una comparación de AIC/AICc y BIC, con comentarios complementarios de Burnham y Anderson (2004). Los autores muestran que AIC/AICc se puede derivar en el mismo marco bayesiano que BIC, simplemente utilizando diferentes probabilidades previas . Sin embargo, en la derivación bayesiana de BIC, cada modelo candidato tiene una probabilidad previa de 1/ R (donde R es el número de modelos candidatos). Además, los autores presentan algunos estudios de simulación que sugieren que AICc tiende a tener ventajas prácticas y de rendimiento sobre BIC.

Un punto señalado por varios investigadores es que AIC y BIC son apropiados para diferentes tareas. En particular, se sostiene que BIC es apropiado para seleccionar el "modelo verdadero" (es decir, el proceso que generó los datos) del conjunto de modelos candidatos, mientras que AIC no es apropiado. Para ser más específicos, si el "modelo verdadero" está en el conjunto de candidatos, entonces BIC seleccionará el "modelo verdadero" con probabilidad 1, ya que $n \to \infty$ ; en contraste, cuando la selección se realiza mediante AIC, la probabilidad puede ser menor que 1. ^[31]^[32]^[33] Los defensores de AIC argumentan que este problema es insignificante, porque el "modelo verdadero" prácticamente nunca está en el conjunto de candidatos. De hecho, es un aforismo común en estadística que " todos los modelos son incorrectos "; por lo tanto, el "modelo verdadero" (es decir, la realidad) no puede estar en el conjunto de candidatos.

Vrieze (2012) ofrece otra comparación entre AIC y BIC. Vrieze presenta un estudio de simulación que permite que el "modelo verdadero" se encuentre en el conjunto de candidatos (a diferencia de lo que ocurre con prácticamente todos los datos reales). El estudio de simulación demuestra, en particular, que AIC a veces selecciona un modelo mucho mejor que BIC incluso cuando el "modelo verdadero" se encuentra en el conjunto de candidatos. La razón es que, para un número finito $de n$ , BIC puede tener un riesgo sustancial de seleccionar un modelo muy malo del conjunto de candidatos. Esta razón puede surgir incluso cuando $n$ es mucho mayor que $k$ ² . Con AIC, se minimiza el riesgo de seleccionar un modelo muy malo.

Si el "modelo verdadero" no está en el conjunto de candidatos, lo máximo que podemos esperar hacer es seleccionar el modelo que mejor se aproxime al "modelo verdadero". El AIC es apropiado para encontrar el mejor modelo de aproximación, bajo ciertas suposiciones. ^[31]^[32]^[33] (Estas suposiciones incluyen, en particular, que la aproximación se realiza con respecto a la pérdida de información).

Yang (2005) compara el AIC y el BIC en el contexto de la regresión . En la regresión, el AIC es asintóticamente óptimo para seleccionar el modelo con el menor error cuadrático medio , bajo el supuesto de que el "modelo verdadero" no está en el conjunto de candidatos. El BIC no es asintóticamente óptimo bajo este supuesto. Yang muestra además que la tasa a la que el AIC converge al óptimo es, en cierto sentido, la mejor posible.

Comparación con mínimos cuadrados

A veces, cada modelo candidato supone que los residuos se distribuyen según distribuciones normales independientes e idénticas (con media cero). Esto da lugar al ajuste del modelo por mínimos cuadrados .

Con el ajuste de mínimos cuadrados, la estimación de máxima verosimilitud para la varianza de las distribuciones de residuos de un modelo es

{\hat {\sigma }}^{2}=\mathrm {RSS} /n

donde la suma residual de cuadrados es

\textstyle \mathrm {RSS} =\sum _{i=1}^{n}(y_{i}-f(x_{i};{\hat {\theta }}))^{2}

Entonces, el valor máximo de la función de log-verosimilitud de un modelo es (ver Distribución normal#Log-verosimilitud ):

\ln({\hat {L}})=-{\frac {n}{2}}\ln(2\pi )-{\frac {n}{2}}\ln({\hat {\sigma }}^{2})-{\frac {1}{2{\hat {\sigma }}^{2}}}\mathrm {RSS} \,=\,-{\frac {n}{2}}\ln({\hat {\sigma }}^{2})+C

donde $C$ es una constante independiente del modelo y que depende únicamente de los puntos de datos particulares, es decir, no cambia si los datos no cambian.

Esto da: ^[34]

\mathrm {AIC} = 2k-2\ln({\hat {L}})=2k+n\ln({\hat {\sigma }}^{2})-2C

Dado que solo las diferencias en AIC son significativas, se puede ignorar la constante $C$ , lo que nos permite tomar convenientemente lo siguiente para comparaciones de modelos:

\Delta \mathrm {AIC} = 2k+n\ln({\hat {\sigma }}^{2})

Tenga en cuenta que si todos los modelos tienen el mismo $k$ , entonces seleccionar el modelo con AIC mínimo es equivalente a seleccionar el modelo con $RSS$ mínimo , que es el objetivo habitual de la selección de modelos basada en mínimos cuadrados.

Comparación con validación cruzada

La validación cruzada con exclusión de uno es asintóticamente equivalente a AIC para los modelos de regresión lineal ordinarios. ^[35] La equivalencia asintótica a AIC también se aplica a los modelos de efectos mixtos . ^[36]

Comparación con MallowsC p

El C _p de Mallows es equivalente a AIC en el caso de la regresión lineal (gaussiana) . ^[37]

Véase también

Notas

^ Stoica, P.; Selen, Y. (2004), "Selección de orden de modelo: una revisión de las reglas de criterios de información", IEEE Signal Processing Magazine (julio): 36–47, doi :10.1109/MSP.2004.1311138, S2CID 17338979
^ McElreath, Richard (2016). Replanteamiento estadístico: un curso bayesiano con ejemplos en R y Stan. CRC Press. pág. 189. ISBN 978-1-4822-5344-3El AIC proporciona una estimación sorprendentemente simple de la desviación promedio fuera de la muestra.
^ Taddy, Matt (2019). Business Data Science: Combine Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions (Ciencia de datos empresariales: combinación de aprendizaje automático y economía para optimizar, automatizar y acelerar las decisiones empresariales). Nueva York: McGraw-Hill. pág. 90. ISBN 978-1-260-45277-8El AIC es una estimación de la desviación fuera de rango .
^ Burnham y Anderson 2002, §2.2
^ por Akaike 1974
^ Burnham y Anderson 2002, §2.9.1, §6.4.5
^ Burnham y Anderson 2002
^ Burnham y Anderson 2002, §2.12.4
^ Murtaugh 2014
^ Burnham y Anderson 2002, pág. 99
^ Bandyopadhyay y Forster 2011
^ Sakamoto, Ishiguro y Kitagawa 1986
^ McQuarrie y Tsai 1998
^ Claeskens y Hjort 2008, §8.3
^ Giraud 2015, §2.9.1
^ Sugiura (1978)
^ Hurvich y Tsai (1989)
^ Cavanaugh 1997
^ Burnham y Anderson 2002, §2.4
^ Burnham y Anderson 2004
^ Burnham y Anderson 2002, §7.4
^ de Findley y Parzen 1995
^ Akaike 1973
^ de Leeuw 1992
^ Takeuchi, Kei (2020), Takeuchi, Kei (ed.), "Sobre el problema de la selección de modelos basada en los datos", Contribuciones a la teoría de la estadística matemática , Tokio: Springer Japón, págs. 329–356, doi :10.1007/978-4-431-55239-0_12, ISBN 978-4-431-55239-0, consultado el 2 de febrero de 2024
^ Burnham y Anderson 2002, pág. 63
^ Matsuda, Takeru; Uehara, Masatoshi; Hyvarinen, Aapo (2021). "Criterios de información para modelos no normalizados". Revista de investigación en aprendizaje automático . 22 (158): 1–33. ISSN 1533-7928.
^ Ding, Jie; Tarokh, Vahid; Yang, Yuhong (noviembre de 2018). "Técnicas de selección de modelos: una descripción general". Revista IEEE Signal Processing . 35 (6): 16–34. arXiv : 1810.09583 . Código Bibliográfico : 2018ISPM...35f..16D. doi : 10.1109/MSP.2018.2867638. ISSN 1053-5888. S2CID : 53035396.
^ Ding, J.; Tarokh, V.; Yang, Y. (junio de 2018). "Uniendo AIC y BIC: un nuevo criterio para la autorregresión". IEEE Transactions on Information Theory . 64 (6): 4024–4043. arXiv : 1508.02473 . doi :10.1109/TIT.2017.2717599. ISSN 1557-9654. S2CID 5189440.
^ Ding, Jie; Tarokh, Vahid; Yang, Yuhong (14 de noviembre de 2018). "Técnicas de selección de modelos: una descripción general". Revista IEEE Signal Processing . 35 (6): 16–34. arXiv : 1810.09583 . Código Bibliográfico : 2018ISPM...35f..16D. doi : 10.1109/MSP.2018.2867638. S2CID : 53035396. Consultado el 18 de febrero de 2023 .
^ Véase Burnham y Anderson 2002, §6.3-6.4
^ desde Vrieze 2012
^ de Aho, Derryberry y Peterson 2014
^ Burnham y Anderson 2002, pág. 63
^ Piedra 1977
^ Colmillo 2011
^ Boisbunon y otros, 2014

Referencias

Aho, K.; Derryberry, D.; Peterson, T. (2014), "Selección de modelos para ecologistas: las visiones del mundo de AIC y BIC", Ecology , 95 (3): 631–636, doi :10.1890/13-1452.1, PMID 24804445.
Akaike, H. (1973), "Teoría de la información y una extensión del principio de máxima verosimilitud", en Petrov, BN; Csáki, F. (eds.), Segundo Simposio Internacional sobre Teoría de la Información, Tsahkadsor, Armenia, URSS, 2 al 8 de septiembre de 1971 , Budapest: Akadémiai Kiadó , págs.. Republicado en Kotz, S .; Johnson, NL , eds. (1992), Breakthroughs in Statistics , vol. I, Springer-Verlag , págs. 610–624.
Akaike, H. (1974), "Una nueva mirada a la identificación de modelos estadísticos", IEEE Transactions on Automatic Control , 19 (6): 716–723, Bibcode :1974ITAC...19..716A, doi :10.1109/TAC.1974.1100705, MR 0423716.
Akaike, H. (1985), "Predicción y entropía", en Atkinson, AC; Fienberg, SE (eds.), A Celebration of Statistics , Springer, págs. 1–24.
Bandyopadhyay, PS; Forster, MR, eds. (2011), Filosofía de la estadística , North-Holland Publishing.
Boisbunon, A.; Canu, S.; Fourdrinier, D.; Strawderman, W.; Wells, MT (2014), "Criterio de información de Akaike, C _p y estimadores de pérdida para distribuciones elípticamente simétricas", International Statistical Review , 82 (3): 422–439, doi : 10.1111/insr.12052 , S2CID 119926327.
Burnham, KP; Anderson, DR (2002), Selección de modelos e inferencia multimodelo: un enfoque práctico basado en la teoría de la información (2.ª ed.), Springer-Verlag.
Burnham, KP; Anderson, DR (2004), "Inferencia multimodelo: comprensión de AIC y BIC en la selección de modelos" (PDF) , Sociological Methods & Research , 33 : 261–304, doi :10.1177/0049124104268644, S2CID 121861644.
Cavanaugh, JE (1997), "Unificación de las derivaciones de los criterios de información de Akaike y Akaike corregido", Statistics & Probability Letters , 31 (2): 201–208, doi :10.1016/s0167-7152(96)00128-9.
Claeskens, G. ; Hjort, NL (2008), Selección de modelos y promedio de modelos , Cambridge University Press. [ Nota: la AIC definida por Claeskens y Hjort es la negativa de la definición estándar, tal como la dio originalmente Akaike y la siguieron otros autores.]
deLeeuw, J. (1992), "Introducción a la teoría de la información de Akaike (1973) y una extensión del principio de máxima verosimilitud" (PDF) , en Kotz, S. ; Johnson, NL (eds.), Breakthroughs in Statistics I , Springer, pp. 599–609, archivado desde el original (PDF) el 2016-01-08 , consultado el 2014-11-27.
Fang, Yixin (2011), "Equivalencia asintótica entre validaciones cruzadas y criterios de información de Akaike en modelos de efectos mixtos" (PDF) , Journal of Data Science , 9 : 15–21, archivado desde el original (PDF) el 2016-03-04 , consultado el 2011-04-16.
Findley, DF; Parzen, E. (1995), "Una conversación con Hirotugu Akaike", Statistical Science , 10 : 104–117, doi : 10.1214/ss/1177010133.
Giraud, C. (2015), Introducción a las estadísticas de alta dimensión , CRC Press.
Hurvich, CM; Tsai, C.-L. (1989), "Selección de modelos de regresión y series temporales en muestras pequeñas", Biometrika , 76 (2): 297–307, doi :10.1093/biomet/76.2.297.
Konishi, S.; Kitagawa, G. (2008), Criterios de información y modelado estadístico , Springer.
McQuarrie, ADR; Tsai, C.-L. (1998), Selección de modelos de regresión y series temporales , World Scientific.
Murtaugh, PA (2014), "En defensa de los valores P", Ecology , 95 (3): 611–617, Bibcode :2014Ecol...95..611M, doi :10.1890/13-0590.1, PMID 24804441.
Sakamoto, Y.; Ishiguro, M.; Kitagawa, G. (1986), Estadística del criterio de información de Akaike , D. Reidel.
Stone, M. (1977), "Una equivalencia asintótica de la elección del modelo mediante validación cruzada y el criterio de Akaike", Journal of the Royal Statistical Society, Serie B , 39 (1): 44–47, doi :10.1111/j.2517-6161.1977.tb01603.x, JSTOR 2984877.
Sugiura, N. (1978), "Análisis adicional de los datos mediante el criterio de información de Akaike y las correcciones finitas", Communications in Statistics - Theory and Methods , 7 : 13–26, doi :10.1080/03610927808827599.
Takeuchi, K. (1976), " " [Distribución de estadísticas informativas y un criterio de ajuste de modelos], Suri Kagaku [ Ciencias matemáticas ] (en japonés), 153 : 12–18, ISSN 0386-2240.
Vrieze, SI (2012), "Selección de modelos y teoría psicológica: una discusión de las diferencias entre el Criterio de Información de Akaike (AIC) y el Criterio de Información Bayesiano (BIC)", Psychological Methods , 17 (2): 228–243, doi :10.1037/a0027127, PMC 3366160 , PMID 22309957.
Yang, Y. (2005), "¿Se pueden compartir las fortalezas de AIC y BIC?", Biometrika , 92 : 937–950, doi : 10.1093/biomet/92.4.937.

Lectura adicional

Akaike, H. (21 de diciembre de 1981), "El clásico de las citas de esta semana" (PDF) , Current Contents Engineering, Technology, and Applied Sciences , 12 (51): 42[Hirotogu Akaike comenta cómo llegó a AIC]
Anderson, DR (2008), Inferencia basada en modelos en las ciencias de la vida , Springer
Arnold, TW (2010), "Parámetros no informativos y selección de modelos utilizando el criterio de información de Akaike", Journal of Wildlife Management , 74 (6): 1175–1178, doi : 10.1111/j.1937-2817.2010.tb01236.x
Burnham, KP; Anderson, DR; Huyvaert, KP (2011), "Selección de modelos AIC e inferencia multimodelo en ecología del comportamiento" (PDF) , Behavioral Ecology and Sociobiology , 65 : 23–35, doi :10.1007/s00265-010-1029-6, S2CID 3354490, archivado desde el original (PDF) el 2017-08-09 , consultado el 2018-05-04
Cavanaugh, JE; Neath, AA (2019), "El criterio de información de Akaike", WIREs Computational Statistics , 11 (3): e1460, doi :10.1002/wics.1460, S2CID 88491599
Ing, C.-K.; Wei, C.-Z. (2005), "Selección de orden para predicciones de la misma realización en procesos autorregresivos", Annals of Statistics , 33 (5): 2423–2474, arXiv : math/0602326 , doi : 10.1214/009053605000000525
Ko, V.; Hjort, NL (2019), "Criterio de información de cópula para la selección de modelos con estimación de máxima verosimilitud en dos etapas", Econometrics and Statistics , 12 : 167–180, doi : 10.1016/j.ecosta.2019.01.001, hdl : 10852/74878 , S2CID : 126873625
Larski, S. (2012), El problema de la selección de modelos y el realismo científico (PDF) (Tesis), London School of Economics
Pan, W. (2001), "El criterio de información de Akaike en ecuaciones de estimación generalizadas", Biometrics , 57 (1): 120–125, doi :10.1111/j.0006-341X.2001.00120.x, PMID 11252586, S2CID 7862441
Parzen, E. ; Tanabe, K.; Kitagawa, G., eds. (1998), Documentos seleccionados de Hirotugu Akaike , Springer Series in Statistics, Springer, doi :10.1007/978-1-4612-1694-0, ISBN 978-1-4612-7248-9
Saefken, B.; Kneib, T.; van Waveren, C.-S.; Greven, S. (2014), "Un enfoque unificador para la estimación de la información condicional de Akaike en modelos lineales mixtos generalizados", Electronic Journal of Statistics , 8 : 201–225, doi : 10.1214/14-EJS881