En el análisis de series de tiempo , el método Box-Jenkins , [1] que lleva el nombre de los estadísticos George Box y Gwilym Jenkins , aplica modelos de media móvil autorregresiva (ARMA) o de media móvil autorregresiva integrada (ARIMA) para encontrar el mejor ajuste de una serie de tiempo. modelo a valores pasados de una serie temporal .
El modelo original utiliza un enfoque de modelado iterativo de tres etapas:
Los datos que utilizaron eran de un horno de gas. Estos datos son bien conocidos como datos de hornos de gas Box y Jenkins para comparar modelos predictivos.
Commandeur y Koopman (2007, §10.4) [2] sostienen que el enfoque de Box-Jenkins es fundamentalmente problemático. El problema surge porque en "los campos económico y social, las series reales nunca son estacionarias por mucho que se hagan diferencias". Por lo tanto, el investigador tiene que enfrentarse a la pregunta: ¿qué tan cerca de estacionario es lo suficientemente cerca? Como señalan los autores, "Ésta es una pregunta difícil de responder". Los autores sostienen además que, en lugar de utilizar Box-Jenkins, es mejor utilizar métodos de espacio de estados, ya que entonces no se requiere la estacionariedad de la serie temporal.
El primer paso para desarrollar un modelo de Box-Jenkins es determinar si la serie temporal es estacionaria y si existe alguna estacionalidad significativa que deba modelarse.
La estacionariedad se puede evaluar a partir de un gráfico de secuencia de ejecución . El gráfico de secuencia de ejecución debe mostrar una ubicación y escala constantes . También se puede detectar a partir de un gráfico de autocorrelación . Específicamente, la no estacionariedad a menudo se indica mediante un gráfico de autocorrelación con una caída muy lenta. También se puede utilizar una prueba de Dickey-Fuller o una prueba de Dickey-Fuller aumentada .
La estacionalidad (o periodicidad) generalmente se puede evaluar a partir de un gráfico de autocorrelación, un gráfico de subseries estacionales o un gráfico espectral .
Box y Jenkins recomiendan el enfoque diferenciador para lograr la estacionariedad. Sin embargo, ajustar una curva y restar los valores ajustados de los datos originales también se puede utilizar en el contexto de los modelos Box-Jenkins.
En la etapa de identificación del modelo, el objetivo es detectar la estacionalidad, si existe, e identificar el orden de los términos estacional autorregresivo y de promedio móvil estacional. Para muchas series, el período es conocido y un único término de estacionalidad es suficiente. Por ejemplo, para los datos mensuales normalmente se incluiría un término estacional AR 12 o un término estacional MA 12. Para los modelos Box-Jenkins, no se elimina explícitamente la estacionalidad antes de ajustar el modelo. En lugar de ello, se incluye el orden de los términos estacionales en la especificación del modelo del software de estimación ARIMA . Sin embargo, puede resultar útil aplicar una diferencia estacional a los datos y regenerar los gráficos de autocorrelación y de autocorrelación parcial. Esto puede ayudar en la identificación del componente no estacional del modelo. En algunos casos, la diferenciación estacional puede eliminar la mayor parte o la totalidad del efecto estacional.
Una vez que se han abordado la estacionariedad y la estacionalidad, el siguiente paso es identificar el orden (es decir, p y q ) de los términos autorregresivos y de media móvil. Diferentes autores tienen diferentes enfoques para identificar p y q . Brockwell y Davis (1991) [3] afirman que "nuestro criterio principal para la selección del modelo [entre los modelos ARMA(p,q)] será el AICc", es decir, el criterio de información de Akaike con corrección. Otros autores utilizan el gráfico de autocorrelación y el gráfico de autocorrelación parcial, que se describen a continuación.
El gráfico de autocorrelación de muestra y el gráfico de autocorrelación parcial de muestra se comparan con el comportamiento teórico de estos gráficos cuando se conoce el orden.
Específicamente, para un proceso AR(1) , la función de autocorrelación de la muestra debería tener una apariencia exponencialmente decreciente. Sin embargo, los procesos AR de orden superior son a menudo una mezcla de componentes sinusoidales amortiguados y decrecientes exponencialmente.
Para procesos autorregresivos de orden superior, la autocorrelación de la muestra debe complementarse con un gráfico de autocorrelación parcial. La autocorrelación parcial de un proceso AR( p ) se vuelve cero en un retraso p + 1 y mayor, por lo que examinamos la función de autocorrelación parcial de la muestra para ver si hay evidencia de una desviación de cero. Esto generalmente se determina colocando un intervalo de confianza del 95% en el gráfico de autocorrelación parcial de la muestra (la mayoría de los programas de software que generan gráficos de autocorrelación de la muestra también trazan este intervalo de confianza). Si el programa de software no genera la banda de confianza, es aproximadamente , donde N indica el tamaño de la muestra.
La función de autocorrelación de un proceso MA( q ) se vuelve cero en un rezago q + 1 y mayor, por lo que examinamos la función de autocorrelación de muestra para ver dónde esencialmente se vuelve cero. Hacemos esto colocando el intervalo de confianza del 95% para la función de autocorrelación muestral en el gráfico de autocorrelación muestral. La mayoría del software que puede generar el gráfico de autocorrelación también puede generar este intervalo de confianza.
La función de autocorrelación parcial de la muestra generalmente no es útil para identificar el orden del proceso de media móvil.
La siguiente tabla resume cómo se puede utilizar la función de autocorrelación de muestra para la identificación del modelo.
Hyndman y Athanasopoulos sugieren lo siguiente: [4]
En la práctica, las funciones de autocorrelación muestral y de autocorrelación parcial son variables aleatorias y no dan la misma imagen que las funciones teóricas. Esto dificulta la identificación del modelo. En particular, los modelos mixtos pueden resultar particularmente difíciles de identificar. Aunque la experiencia es útil, desarrollar buenos modelos utilizando estos gráficos de muestra puede implicar mucho ensayo y error.
Estimar los parámetros de los modelos Box-Jenkins implica aproximar numéricamente las soluciones de ecuaciones no lineales. Por esta razón, es común utilizar software estadístico diseñado para manejar este enfoque; prácticamente todos los paquetes estadísticos modernos cuentan con esta capacidad. Los principales enfoques para ajustar los modelos de Box-Jenkins son los mínimos cuadrados no lineales y la estimación de máxima verosimilitud. La estimación de máxima verosimilitud es generalmente la técnica preferida. Las ecuaciones de probabilidad para el modelo completo de Box-Jenkins son complicadas y no se incluyen aquí. Véase (Brockwell y Davis, 1991) para detalles matemáticos.
El diagnóstico de modelos para los modelos de Box-Jenkins es similar a la validación de modelos para el ajuste de mínimos cuadrados no lineal.
Es decir, se supone que el término de error At sigue los supuestos para un proceso univariado estacionario. Los residuos deben ser ruido blanco (o independientes cuando sus distribuciones son normales) extraídos de una distribución fija con media y varianza constantes. Si el modelo de Box-Jenkins es un buen modelo para los datos, los residuos deberían satisfacer estos supuestos.
Si estos supuestos no se cumplen, es necesario ajustar un modelo más apropiado. Es decir, volver al paso de identificación del modelo e intentar desarrollar un modelo mejor. Es de esperar que el análisis de los residuos pueda proporcionar algunas pistas sobre un modelo más apropiado.
Una forma de evaluar si los residuos del modelo Box-Jenkins siguen los supuestos es generar gráficos estadísticos (incluido un gráfico de autocorrelación) de los residuos. También se podría observar el valor de la estadística de Box-Ljung .
Este artículo incorpora material de dominio público del Instituto Nacional de Estándares y Tecnología.