stringtranslate.com

Criterio de información de Akaike

El criterio de información de Akaike ( AIC ) es un estimador del error de predicción y, por tanto, de la calidad relativa de los modelos estadísticos para un conjunto de datos determinado. [1] [2] [3] Dada una colección de modelos para los datos, AIC estima la calidad de cada modelo, en relación con cada uno de los otros modelos. Por tanto, AIC proporciona un medio para la selección de modelos .

La AIC se basa en la teoría de la información . Cuando se utiliza un modelo estadístico para representar el proceso que generó los datos, la representación casi nunca será exacta; por lo que se perderá cierta información al utilizar el modelo para representar el proceso. AIC estima la cantidad relativa de información perdida por un modelo determinado: cuanta menos información pierda un modelo, mayor será su calidad.

Al estimar la cantidad de información perdida por un modelo, AIC se ocupa del equilibrio entre la bondad de ajuste del modelo y la simplicidad del modelo. En otras palabras, AIC aborda tanto el riesgo de sobreadaptación como el riesgo de desadaptación.

El criterio de información de Akaike lleva el nombre del estadístico japonés Hirotsugu Akaike , quien lo formuló. Ahora constituye la base de un paradigma para los fundamentos de la estadística y también se utiliza ampliamente para la inferencia estadística .

Definición

Supongamos que tenemos un modelo estadístico de algunos datos. Sea k el número de parámetros estimados en el modelo. Sea el valor maximizado de la función de verosimilitud del modelo. Entonces el valor AIC del modelo es el siguiente. [4] [5]

Dado un conjunto de modelos candidatos para los datos, el modelo preferido es el que tiene el valor AIC mínimo. Por lo tanto, AIC recompensa la bondad de ajuste (evaluada por la función de probabilidad), pero también incluye una penalización que es una función creciente del número de parámetros estimados. La penalización desalienta el sobreajuste , que es deseable porque aumentar el número de parámetros en el modelo casi siempre mejora la bondad del ajuste.

La AIC se fundamenta en la teoría de la información . Supongamos que los datos son generados por algún proceso desconocido f . Consideramos dos modelos candidatos para representar f : g 1 y g 2 . Si supiéramos f , entonces podríamos encontrar la información perdida al usar g 1 para representar f calculando la divergencia de Kullback-Leibler , D KL ( fg 1 ) ; de manera similar, la información perdida al usar g 2 para representar f podría encontrarse calculando D KL ( fg 2 ) . Entonces, generalmente, elegiríamos el modelo candidato que minimizara la pérdida de información.

No podemos elegir con certeza porque no sabemos f . Akaike (1974) demostró, sin embargo, que podemos estimar, mediante AIC, cuánta más (o menos) información se pierde con g 1 que con g 2 . Sin embargo, la estimación sólo es válida asintóticamente ; si el número de puntos de datos es pequeño, entonces suele ser necesaria alguna corrección (ver AICc, más abajo).

Tenga en cuenta que AIC no dice nada sobre la calidad absoluta de un modelo, sólo la calidad relativa a otros modelos. Por lo tanto, si todos los modelos candidatos no encajan bien, la AIC no avisará de ello. Por lo tanto, después de seleccionar un modelo mediante AIC, suele ser una buena práctica validar la calidad absoluta del modelo. Esta validación suele incluir comprobaciones de los residuos del modelo (para determinar si los residuos parecen aleatorios) y pruebas de las predicciones del modelo. Para obtener más información sobre este tema, consulte Validación de modelos estadísticos .

Cómo utilizar AIC en la práctica

Para aplicar AIC en la práctica, comenzamos con un conjunto de modelos candidatos y luego encontramos los valores AIC correspondientes a los modelos. Casi siempre se perderá información debido al uso de un modelo candidato para representar el "modelo verdadero", es decir, el proceso que generó los datos. Deseamos seleccionar, de entre los modelos candidatos, el modelo que minimice la pérdida de información. No podemos elegir con certeza, pero podemos minimizar la pérdida de información estimada.

Supongamos que hay modelos candidatos R. Denote los valores AIC de esos modelos por AIC 1 , AIC 2 , AIC 3 , ..., AIC R. Sea AIC min el mínimo de esos valores. Entonces la cantidad exp((AIC min − AIC i )/2) puede interpretarse como proporcional a la probabilidad de que el i- ésimo modelo minimice la pérdida de información (estimada). [6]

Como ejemplo, supongamos que hay tres modelos candidatos, cuyos valores AIC son 100, 102 y 110. Entonces el segundo modelo es exp((100 − 102)/2) = 0,368 veces más probable que el primer modelo para minimizar la pérdida de información. De manera similar, el tercer modelo es exp((100 − 110)/2) = 0,007 veces más probable que el primer modelo para minimizar la pérdida de información.

En este ejemplo, omitiríamos el tercer modelo a la hora de considerarlo más a fondo. Entonces tenemos tres opciones: (1) recopilar más datos, con la esperanza de que esto permita distinguir claramente entre los dos primeros modelos; (2) simplemente concluir que los datos son insuficientes para respaldar la selección de un modelo entre los dos primeros; (3) tomar un promedio ponderado de los dos primeros modelos, con pesos proporcionales a 1 y 0,368, respectivamente, y luego hacer inferencia estadística basada en el multimodelo ponderado . [7]

La cantidad exp((AIC min − AIC i )/2) se conoce como probabilidad relativa del modelo i . Está estrechamente relacionado con el índice de verosimilitud utilizado en la prueba del índice de verosimilitud . De hecho, si todos los modelos en el conjunto candidato tienen el mismo número de parámetros, entonces usar AIC podría parecer al principio muy similar a usar la prueba de razón de verosimilitud. Sin embargo, existen distinciones importantes. En particular, la prueba de razón de verosimilitud es válida sólo para modelos anidados , mientras que AIC (y AICc) no tienen tal restricción. [8] [9]

Evaluación de la hipótesis

Cada prueba de hipótesis estadística se puede formular como una comparación de modelos estadísticos. Por lo tanto, cada prueba de hipótesis estadística se puede replicar mediante AIC. En las siguientes subsecciones se describen brevemente dos ejemplos. Sakamoto, Ishiguro y Kitagawa (1986, parte II) y Konishi y Kitagawa (2008, cap. 4) brindan detalles sobre esos ejemplos, y muchos más.

Replicar la prueba t de Student

Como ejemplo de prueba de hipótesis, considere la prueba t para comparar las medias de dos poblaciones normalmente distribuidas . La entrada a la prueba t comprende una muestra aleatoria de cada una de las dos poblaciones.

Para formular la prueba como una comparación de modelos, construimos dos modelos diferentes. El primer modelo modela las dos poblaciones con medias y desviaciones estándar potencialmente diferentes. La función de verosimilitud del primer modelo es, por tanto, el producto de las verosimilitudes de dos distribuciones normales distintas; por lo que tiene cuatro parámetros: μ 1 , σ 1 , μ 2 , σ 2 . Para ser explícito, la función de probabilidad es la siguiente (que denota los tamaños de muestra por n 1 y n 2 ).

El segundo modelo modela que las dos poblaciones tienen las mismas medias pero desviaciones estándar potencialmente diferentes. La función de verosimilitud para el segundo modelo establece así μ 1 = μ 2 en la ecuación anterior; entonces tiene tres parámetros.

Luego maximizamos las funciones de verosimilitud para los dos modelos (en la práctica, maximizamos las funciones de verosimilitud logarítmica); después de eso, es fácil calcular los valores AIC de los modelos. A continuación calculamos la probabilidad relativa. Por ejemplo, si el segundo modelo fuera sólo 0,01 veces más probable que el primero, entonces omitiríamos el segundo modelo de una mayor consideración: por lo tanto, concluiríamos que las dos poblaciones tienen medias diferentes.

La prueba t supone que las dos poblaciones tienen desviaciones estándar idénticas; la prueba tiende a ser poco confiable si la suposición es falsa y los tamaños de las dos muestras son muy diferentes ( la prueba t de Welch sería mejor). Comparar las medias de las poblaciones mediante AIC, como en el ejemplo anterior, tiene la ventaja de no hacer tales suposiciones.

Comparación de conjuntos de datos categóricos

Para otro ejemplo de prueba de hipótesis, supongamos que tenemos dos poblaciones y que cada miembro de cada población está en una de dos categorías : categoría 1 o categoría 2. Cada población está distribuida binomialmente . Queremos saber si las distribuciones de las dos poblaciones son las mismas. Se nos da una muestra aleatoria de cada una de las dos poblaciones.

Sea m el tamaño de la muestra de la primera población. Sea m 1 el número de observaciones (en la muestra) en la categoría #1; entonces el número de observaciones en la categoría #2 es mm 1 . De manera similar, sea n el tamaño de la muestra de la segunda población. Sea n 1 el número de observaciones (en la muestra) en la categoría n.° 1.

Sea p la probabilidad de que un miembro de la primera población elegido al azar esté en la categoría n.° 1. Por lo tanto, la probabilidad de que un miembro de la primera población elegido al azar esté en la categoría n.° 2 es 1 − p . Tenga en cuenta que la distribución de la primera población tiene un parámetro. Sea q la probabilidad de que un miembro de la segunda población elegido al azar esté en la categoría n.° 1. Tenga en cuenta que la distribución de la segunda población también tiene un parámetro.

Para comparar las distribuciones de las dos poblaciones, construimos dos modelos diferentes. El primer modelo modela las dos poblaciones con distribuciones potencialmente diferentes. La función de verosimilitud del primer modelo es, por tanto, el producto de las verosimilitudes de dos distribuciones binomiales distintas; entonces tiene dos parámetros: p , q . Para ser explícito, la función de probabilidad es la siguiente.

El segundo modelo modela que las dos poblaciones tienen la misma distribución. La función de verosimilitud para el segundo modelo establece p = q en la ecuación anterior; entonces el segundo modelo tiene un parámetro.

Luego maximizamos las funciones de verosimilitud para los dos modelos (en la práctica, maximizamos las funciones de verosimilitud logarítmica); después de eso, es fácil calcular los valores AIC de los modelos. A continuación calculamos la probabilidad relativa. Por ejemplo, si el segundo modelo fuera sólo 0,01 veces más probable que el primero, entonces omitiríamos el segundo modelo de una mayor consideración: por lo tanto, concluiríamos que las dos poblaciones tienen distribuciones diferentes.

Fundamentos de la estadística

Generalmente se considera que la inferencia estadística comprende la prueba y la estimación de hipótesis . La prueba de hipótesis se puede realizar mediante AIC, como se analizó anteriormente. En cuanto a la estimación, existen dos tipos: estimación puntual y estimación de intervalo . La estimación puntual se puede realizar dentro del paradigma AIC: la proporciona la estimación de máxima verosimilitud . La estimación de intervalos también se puede realizar dentro del paradigma AIC: la proporcionan intervalos de probabilidad . Por tanto, la inferencia estadística generalmente se puede realizar dentro del paradigma AIC.

Los paradigmas más utilizados para la inferencia estadística son la inferencia frecuentista y la inferencia bayesiana . Sin embargo, la AIC se puede utilizar para realizar inferencias estadísticas sin depender ni del paradigma frecuentista ni del paradigma bayesiano: porque la AIC se puede interpretar sin la ayuda de niveles de significancia o antecedentes bayesianos . [10] En otras palabras, AIC se puede utilizar para formar una base de estadística que sea distinta tanto del frecuentismo como del bayesianismo. [11] [12]

Modificación para tamaño de muestra pequeño

Cuando el tamaño de la muestra es pequeño, existe una probabilidad sustancial de que AIC seleccione modelos que tengan demasiados parámetros, es decir, que AIC se sobreajuste. [13] [14] [15] Para abordar este posible sobreajuste, se desarrolló AICc: AICc es AIC con una corrección para tamaños de muestra pequeños.

La fórmula de AICc depende del modelo estadístico. Suponiendo que el modelo es univariado , es lineal en sus parámetros y tiene residuos distribuidos normalmente (condicionados a regresores), entonces la fórmula para AICc es la siguiente. [16] [17] [18] [19]

—donde n denota el tamaño de la muestra y k denota el número de parámetros. Por lo tanto, AICc es esencialmente AIC con un término de penalización adicional por la cantidad de parámetros. Tenga en cuenta que cuando n → ∞ , el término de penalización adicional converge a 0 y, por lo tanto, AICc converge a AIC. [20]

Si no se cumple el supuesto de que el modelo es univariante y lineal con residuos normales, entonces la fórmula para AICc generalmente será diferente de la fórmula anterior. Para algunos modelos, la fórmula puede resultar difícil de determinar. Sin embargo, para cada modelo que tiene AICc disponible, la fórmula para AICc viene dada por AIC más términos que incluyen k y k 2 . En comparación, la fórmula de AIC incluye k pero no k 2 . En otras palabras, AIC es una estimación de primer orden (de la pérdida de información), mientras que AICc es una estimación de segundo orden . [21]

Burnham y Anderson (2002, cap. 7) y Konishi y Kitagawa (2008, cap. 7-8) ofrecen un análisis más detallado de la fórmula, con ejemplos de otros supuestos. En particular, con otros supuestos, la estimación bootstrap de la fórmula suele ser factible.

En resumen, AICc tiene la ventaja de tender a ser más preciso que AIC (especialmente para muestras pequeñas), pero AICc también tiene la desventaja de ser a veces mucho más difícil de calcular que AIC. Tenga en cuenta que si todos los modelos candidatos tienen la misma k y la misma fórmula para AICc, entonces AICc y AIC darán valoraciones idénticas (relativas); por lo tanto, no habrá ninguna desventaja al utilizar AIC en lugar de AICc. Además, si n es muchas veces mayor que k 2 , entonces el término de penalización adicional será insignificante; por lo tanto, la desventaja de utilizar AIC, en lugar de AICc, será insignificante.

Historia

Hirotugu Akaike

El criterio de información de Akaike fue formulado por el estadístico Hirotsugu Akaike . Originalmente se denominó "criterio de información". [22] Fue anunciado por primera vez en inglés por Akaike en un simposio de 1971; las actas del simposio se publicaron en 1973. [22] [23] Sin embargo, la publicación de 1973 fue sólo una presentación informal de los conceptos. [24] La primera publicación formal fue un artículo de 1974 de Akaike. [5]

La derivación inicial de AIC se basó en algunos supuestos sólidos. Takeuchi (1976) demostró que los supuestos podían ser mucho más débiles. El trabajo de Takeuchi, sin embargo, estaba en japonés y no fue muy conocido fuera de Japón durante muchos años. (Traducido en [25] )

AICc fue propuesto originalmente para regresión lineal (únicamente) por Sugiura (1978). Esto instigó el trabajo de Hurvich y Tsai (1989), y varios artículos adicionales de los mismos autores, que ampliaron las situaciones en las que se podría aplicar la AICc.

La primera exposición general del enfoque de la teoría de la información fue el volumen de Burnham y Anderson (2002). Incluye una presentación en inglés de la obra de Takeuchi. El volumen condujo a un uso mucho mayor de AIC y ahora tiene más de 64.000 citas en Google Scholar .

Akaike llamó a su enfoque un "principio de maximización de la entropía", porque el enfoque se basa en el concepto de entropía en la teoría de la información . De hecho, minimizar el AIC en un modelo estadístico es efectivamente equivalente a maximizar la entropía en un sistema termodinámico; en otras palabras, el enfoque teórico de la información en estadística consiste esencialmente en aplicar la Segunda Ley de la Termodinámica . Como tal, AIC tiene sus raíces en el trabajo de Ludwig Boltzmann sobre entropía . Para más información sobre estos temas, véase Akaike (1985) y Burnham & Anderson (2002, cap. 2).

Consejos de uso

Parámetros de conteo

Un modelo estadístico debe tener en cuenta los errores aleatorios . Un modelo de línea recta podría describirse formalmente como y i  = b 0  + b 1 x i  + ε i . Aquí, los ε i son los residuos del ajuste en línea recta. Si se supone que ε i es iid gaussiano (con media cero), entonces el modelo tiene tres parámetros: b 0 , b 1 y la varianza de las distribuciones gaussianas. Por tanto, al calcular el valor AIC de este modelo, deberíamos utilizar k =3. De manera más general, para cualquier modelo de mínimos cuadrados con residuos gaussianos iid, la varianza de las distribuciones de los residuos debe contarse como uno de los parámetros. [26]

Como otro ejemplo, considere un modelo autorregresivo de primer orden , definido por x i  = c  + φx i −1  + ε i , siendo ε i iid gaussiano (con media cero). Para este modelo, hay tres parámetros: c , φ y la varianza de ε i . De manera más general, un modelo autorregresivo de orden p tiene p + 2 parámetros. (Sin embargo, si c no se estima a partir de los datos, sino que se da de antemano, entonces sólo hay p + 1 parámetros.)

Transformando datos

Todos los valores AIC de los modelos candidatos deben calcularse con el mismo conjunto de datos. Sin embargo, a veces es posible que deseemos comparar un modelo de la variable de respuesta , y , con un modelo del logaritmo de la variable de respuesta, log( y ) . De manera más general, es posible que deseemos comparar un modelo de datos con un modelo de datos transformados . A continuación se muestra una ilustración de cómo lidiar con las transformaciones de datos (adaptado de Burnham & Anderson (2002, §2.11.3): "Los investigadores deben asegurarse de que todas las hipótesis se modelen utilizando la misma variable de respuesta").

Supongamos que queremos comparar dos modelos: uno con una distribución normal de y y otro con una distribución normal de log( y ) . No deberíamos comparar directamente los valores AIC de los dos modelos. En lugar de ello, deberíamos transformar la función de distribución acumulativa normal para tomar primero el logaritmo de y . Para hacer eso, necesitamos realizar la integración relevante por sustitución : por lo tanto, necesitamos multiplicar por la derivada de la función logaritmo (natural) , que es 1/ y . Por tanto, la distribución transformada tiene la siguiente función de densidad de probabilidad :

—que es la función de densidad de probabilidad para la distribución log-normal . Luego comparamos el valor AIC del modelo normal con el valor AIC del modelo log-normal.

Para un modelo mal especificado, el Criterio de Información (TIC) de Takeuchi podría ser más apropiado. Sin embargo, las TIC a menudo sufren de inestabilidad causada por errores de estimación. [27]

Comparaciones con otros métodos de selección de modelos.

La diferencia crítica entre AIC y BIC (y sus variantes) es la propiedad asintótica bajo clases de modelos bien especificadas y mal especificadas. [28] Sus diferencias fundamentales han sido bien estudiadas en problemas de selección de variables de regresión y selección de orden de autorregresión [29] . En general, si el objetivo es la predicción, se prefieren las validaciones cruzadas AIC y de exclusión. Si el objetivo es la selección, la inferencia o la interpretación, se prefieren las validaciones cruzadas BIC o con exclusión de muchos. Ding et al. ofrecen una descripción general completa del AIC y otros métodos populares de selección de modelos. (2018) [30]

Comparación con BIC

La fórmula del criterio de información bayesiano (BIC) es similar a la fórmula del AIC, pero con una penalización diferente por el número de parámetros. Con AIC la penalización es 2 k , mientras que con BIC la penalización es ln( n ) k .

Burnham & Anderson (2002, §6.3-6.4) ofrecen una comparación entre AIC/AICc y BIC, con comentarios de seguimiento de Burnham & Anderson (2004). Los autores muestran que AIC/AICc se puede derivar en el mismo marco bayesiano que BIC, simplemente utilizando diferentes probabilidades previas . Sin embargo, en la derivación bayesiana de BIC, cada modelo candidato tiene una probabilidad previa de 1/ R (donde R es el número de modelos candidatos). Además, los autores presentan algunos estudios de simulación que sugieren que AICc tiende a tener ventajas prácticas y de rendimiento sobre BIC.

Un punto señalado por varios investigadores es que AIC y BIC son apropiados para diferentes tareas. En particular, se argumenta que BIC es apropiado para seleccionar el "modelo verdadero" (es decir, el proceso que generó los datos) del conjunto de modelos candidatos, mientras que AIC no es apropiado. Para ser específicos, si el "modelo verdadero" está en el conjunto de candidatos, entonces BIC seleccionará el "modelo verdadero" con probabilidad 1, ya que n → ∞ ; por el contrario, cuando la selección se realiza mediante AIC, la probabilidad puede ser inferior a 1. [31] [32] [33] Los defensores de AIC argumentan que esta cuestión es insignificante, porque el "modelo verdadero" prácticamente nunca está en el conjunto de candidatos. . De hecho, es un aforismo común en estadística el de que " todos los modelos están equivocados "; por tanto, el "verdadero modelo" (es decir, la realidad) no puede estar en el conjunto de candidatos.

Vrieze (2012) ofrece otra comparación entre AIC y BIC. Vrieze presenta un estudio de simulación, que permite que el "modelo verdadero" esté en el conjunto de candidatos (a diferencia de prácticamente todos los datos reales). El estudio de simulación demuestra, en particular, que AIC a veces selecciona un modelo mucho mejor que BIC incluso cuando el "modelo verdadero" está en el conjunto de candidatos. La razón es que, para n finito , BIC puede tener un riesgo sustancial de seleccionar un modelo muy malo del conjunto de candidatos. Esta razón puede surgir incluso cuando n es mucho mayor que k 2 . Con AIC se minimiza el riesgo de seleccionar un modelo muy malo.

Si el "modelo verdadero" no está en el conjunto de candidatos, entonces lo máximo que podemos esperar hacer es seleccionar el modelo que mejor se aproxime al "modelo verdadero". AIC es apropiado para encontrar el mejor modelo aproximado, bajo ciertos supuestos. [31] [32] [33] (Esas suposiciones incluyen, en particular, que la aproximación se realiza con respecto a la pérdida de información).

Yang (2005) ofrece una comparación de AIC y BIC en el contexto de la regresión . En regresión, AIC es asintóticamente óptimo para seleccionar el modelo con el mínimo error cuadrático medio , bajo el supuesto de que el "modelo verdadero" no está en el conjunto candidato. BIC no es asintóticamente óptimo bajo este supuesto. Yang muestra además que la velocidad a la que AIC converge al óptimo es, en cierto sentido, la mejor posible.

Comparación con mínimos cuadrados

A veces, cada modelo candidato supone que los residuos se distribuyen según distribuciones normales idénticas e independientes (con media cero). Eso da lugar al ajuste del modelo de mínimos cuadrados .

Con ajuste de mínimos cuadrados, la estimación de máxima verosimilitud para la varianza de las distribuciones de residuos de un modelo es

,

donde la suma residual de cuadrados es

Entonces, el valor máximo de la función de probabilidad logarítmica de un modelo es (ver Distribución normal#Log-verosimilitud ):

donde C es una constante independiente del modelo y dependiente sólo de los puntos de datos particulares, es decir, no cambia si los datos no cambian.

Eso da: [34]

Debido a que sólo las diferencias en AIC son significativas, se puede ignorar la constante C , lo que nos permite tomar convenientemente lo siguiente para comparar modelos:

Tenga en cuenta que si todos los modelos tienen el mismo k , entonces seleccionar el modelo con AIC mínimo equivale a seleccionar el modelo con RSS mínimo , que es el objetivo habitual de la selección de modelos basada en mínimos cuadrados.

Comparación con validación cruzada

La validación cruzada con exclusión de uno es asintóticamente equivalente a AIC, para modelos de regresión lineal ordinarios. [35] La equivalencia asintótica con AIC también es válida para los modelos de efectos mixtos . [36]

Comparación con C p de Mallows

El C p de Mallows es equivalente al AIC en el caso de regresión lineal (gaussiana) . [37]

Ver también

Notas

  1. ^ Estoica, P.; Selen, Y. (2004), "Selección de orden de modelo: una revisión de las reglas de criterios de información", IEEE Signal Processing Magazine (julio): 36–47, doi :10.1109/MSP.2004.1311138, S2CID  17338979
  2. ^ McElreath, Richard (2016). Repensamiento estadístico: un curso bayesiano con ejemplos en R y Stan. Prensa CRC. pag. 189.ISBN 978-1-4822-5344-3. AIC proporciona una estimación sorprendentemente simple de la desviación promedio fuera de la muestra.
  3. ^ Taddy, Matt (2019). Ciencia de datos empresariales: combinación de aprendizaje automático y economía para optimizar, automatizar y acelerar las decisiones comerciales. Nueva York: McGraw-Hill. pag. 90.ISBN 978-1-260-45277-8. El AIC es una estimación de la desviación OOS.
  4. ^ Burnham y Anderson 2002, §2.2
  5. ^ ab Akaike 1974
  6. ^ Burnham y Anderson 2002, §2.9.1, §6.4.5
  7. ^ Burnham y Anderson 2002
  8. ^ Burnham y Anderson 2002, §2.12.4
  9. ^ Murtaugh 2014
  10. ^ Burnham y Anderson 2002, pág. 99
  11. ^ Bandyopadhyay y Forster 2011
  12. ^ Sakamoto, Ishiguro y Kitagawa 1986
  13. ^ McQuarrie y Tsai 1998
  14. ^ Claeskens y Hjort 2008, §8.3
  15. ^ Giraud 2015, §2.9.1
  16. ^ Sugiura (1978)
  17. ^ Hurvich y Tsai (1989)
  18. ^ Cavanaugh 1997
  19. ^ Burnham y Anderson 2002, §2.4
  20. ^ Burnham y Anderson 2004
  21. ^ Burnham y Anderson 2002, §7.4
  22. ^ ab Findley y Parzen 1995
  23. ^ Akaike 1973
  24. ^ deLeeuw 1992
  25. ^ Takeuchi, Kei (2020), Takeuchi, Kei (ed.), "Sobre el problema de la selección de modelos basada en los datos", Contribuciones a la teoría de la estadística matemática , Tokio: Springer Japan, págs. 329–356, doi : 10.1007 /978-4-431-55239-0_12, ISBN 978-4-431-55239-0, recuperado el 2 de febrero de 2024
  26. ^ Burnham y Anderson 2002, pág. 63
  27. ^ Matsuda, Takeru; Uehara, Masatoshi; Hyvarinen, Aapo (2021). "Criterios de información para modelos no normalizados". Revista de investigación sobre aprendizaje automático . 22 (158): 1–33. ISSN  1533-7928.
  28. ^ Ding, Jie; Tarokh, Vahid; Yang, Yuhong (noviembre de 2018). "Técnicas de selección de modelos: descripción general". Revista de procesamiento de señales IEEE . 35 (6): 16–34. arXiv : 1810.09583 . Código Bib : 2018 ISPM...35...16D. doi :10.1109/MSP.2018.2867638. ISSN  1053-5888. S2CID  53035396.
  29. ^ Ding, J.; Tarokh, V.; Yang, Y. (junio de 2018). "Uniendo AIC y BIC: un nuevo criterio para la autorregresión". Transacciones IEEE sobre teoría de la información . 64 (6): 4024–4043. arXiv : 1508.02473 . doi :10.1109/TIT.2017.2717599. ISSN  1557-9654. S2CID  5189440.
  30. ^ Ding, Jie; Tarokh, Vahid; Yang, Yuhong (14 de noviembre de 2018). "Técnicas de selección de modelos: descripción general". Revista de procesamiento de señales IEEE . 35 (6): 16–34. arXiv : 1810.09583 . Código Bib : 2018 ISPM...35f..16D. doi :10.1109/MSP.2018.2867638. S2CID  53035396 . Consultado el 18 de febrero de 2023 .
  31. ^ ab Burnham y Anderson 2002, §6.3-6.4
  32. ^ ab Vrieze 2012
  33. ^ ab Aho, Derryberry y Peterson 2014
  34. ^ Burnham y Anderson 2002, pág. 63
  35. ^ Piedra 1977
  36. ^ Colmillo 2011
  37. ^ Boisbunon y col. 2014

Referencias

Otras lecturas