Método de Box-Jenkins

En el análisis de series de tiempo , el método Box-Jenkins , ^[1] que lleva el nombre de los estadísticos George Box y Gwilym Jenkins , aplica modelos de media móvil autorregresiva (ARMA) o de media móvil autorregresiva integrada (ARIMA) para encontrar el mejor ajuste de una serie de tiempo. modelo a valores pasados de una serie temporal .

Enfoque de modelado

El modelo original utiliza un enfoque de modelado iterativo de tres etapas:

Identificación y selección del modelo : asegurarse de que las variables sean estacionarias , identificar la estacionalidad en la serie dependiente (diferenciándola estacionalmente si es necesario) y utilizar gráficos de las funciones de autocorrelación (ACF) y autocorrelación parcial (PACF) de la serie temporal dependiente para decida qué componente autorregresivo o de media móvil (si corresponde) debe utilizarse en el modelo.
Estimación de parámetros utilizando algoritmos de cálculo para llegar a los coeficientes que mejor se ajusten al modelo ARIMA seleccionado. Los métodos más comunes utilizan la estimación de máxima verosimilitud o la estimación de mínimos cuadrados no lineales .
Comprobación del modelo estadístico probando si el modelo estimado se ajusta a las especificaciones de un proceso univariado estacionario. En particular, los residuos deben ser independientes entre sí y constantes en media y varianza a lo largo del tiempo. (Para identificar errores de especificación es útil trazar la media y la varianza de los residuos a lo largo del tiempo y realizar una prueba de Ljung-Box o trazar la autocorrelación y la autocorrelación parcial de los residuos). Si la estimación es inadecuada, tenemos que volver al paso uno e intentar construir un mejor modelo.

Los datos que utilizaron eran de un horno de gas. Estos datos son bien conocidos como datos de hornos de gas Box y Jenkins para comparar modelos predictivos.

Commandeur y Koopman (2007, §10.4) ^[2] sostienen que el enfoque de Box-Jenkins es fundamentalmente problemático. El problema surge porque en "los campos económico y social, las series reales nunca son estacionarias por mucho que se hagan diferencias". Por lo tanto, el investigador tiene que enfrentarse a la pregunta: ¿qué tan cerca de estacionario es lo suficientemente cerca? Como señalan los autores, "Ésta es una pregunta difícil de responder". Los autores sostienen además que, en lugar de utilizar Box-Jenkins, es mejor utilizar métodos de espacio de estados, ya que entonces no se requiere la estacionariedad de la serie temporal.

Identificación del modelo Box-Jenkins

Estacionariedad y estacionalidad.

El primer paso para desarrollar un modelo de Box-Jenkins es determinar si la serie temporal es estacionaria y si existe alguna estacionalidad significativa que deba modelarse.

Detectar estacionariedad

La estacionariedad se puede evaluar a partir de un gráfico de secuencia de ejecución . El gráfico de secuencia de ejecución debe mostrar una ubicación y escala constantes . También se puede detectar a partir de un gráfico de autocorrelación . Específicamente, la no estacionariedad a menudo se indica mediante un gráfico de autocorrelación con una caída muy lenta. También se puede utilizar una prueba de Dickey-Fuller o una prueba de Dickey-Fuller aumentada .

Detectando estacionalidad

La estacionalidad (o periodicidad) generalmente se puede evaluar a partir de un gráfico de autocorrelación, un gráfico de subseries estacionales o un gráfico espectral .

Diferenciar para lograr la estacionariedad

Box y Jenkins recomiendan el enfoque diferenciador para lograr la estacionariedad. Sin embargo, ajustar una curva y restar los valores ajustados de los datos originales también se puede utilizar en el contexto de los modelos Box-Jenkins.

diferenciación estacional

En la etapa de identificación del modelo, el objetivo es detectar la estacionalidad, si existe, e identificar el orden de los términos estacional autorregresivo y de promedio móvil estacional. Para muchas series, el período es conocido y un único término de estacionalidad es suficiente. Por ejemplo, para los datos mensuales normalmente se incluiría un término estacional AR 12 o un término estacional MA 12. Para los modelos Box-Jenkins, no se elimina explícitamente la estacionalidad antes de ajustar el modelo. En lugar de ello, se incluye el orden de los términos estacionales en la especificación del modelo del software de estimación ARIMA . Sin embargo, puede resultar útil aplicar una diferencia estacional a los datos y regenerar los gráficos de autocorrelación y de autocorrelación parcial. Esto puede ayudar en la identificación del componente no estacional del modelo. En algunos casos, la diferenciación estacional puede eliminar la mayor parte o la totalidad del efecto estacional.

Identificar p y q

Una vez que se han abordado la estacionariedad y la estacionalidad, el siguiente paso es identificar el orden (es decir, p y q ) de los términos autorregresivos y de media móvil. Diferentes autores tienen diferentes enfoques para identificar p y q . Brockwell y Davis (1991) ^[3] afirman que "nuestro criterio principal para la selección del modelo [entre los modelos ARMA(p,q)] será el AICc", es decir, el criterio de información de Akaike con corrección. Otros autores utilizan el gráfico de autocorrelación y el gráfico de autocorrelación parcial, que se describen a continuación.

Gráficos de autocorrelación y autocorrelación parcial.

El gráfico de autocorrelación de muestra y el gráfico de autocorrelación parcial de muestra se comparan con el comportamiento teórico de estos gráficos cuando se conoce el orden.

Específicamente, para un proceso AR(1) , la función de autocorrelación de la muestra debería tener una apariencia exponencialmente decreciente. Sin embargo, los procesos AR de orden superior son a menudo una mezcla de componentes sinusoidales amortiguados y decrecientes exponencialmente.

Para procesos autorregresivos de orden superior, la autocorrelación de la muestra debe complementarse con un gráfico de autocorrelación parcial. La autocorrelación parcial de un proceso AR( p ) se vuelve cero en un retraso p + 1 y mayor, por lo que examinamos la función de autocorrelación parcial de la muestra para ver si hay evidencia de una desviación de cero. Esto generalmente se determina colocando un intervalo de confianza del 95% en el gráfico de autocorrelación parcial de la muestra (la mayoría de los programas de software que generan gráficos de autocorrelación de la muestra también trazan este intervalo de confianza). Si el programa de software no genera la banda de confianza, es aproximadamente , donde N indica el tamaño de la muestra. $\pm 2/{\sqrt {N}}$

La función de autocorrelación de un proceso MA( q ) se vuelve cero en un rezago q + 1 y mayor, por lo que examinamos la función de autocorrelación de muestra para ver dónde esencialmente se vuelve cero. Hacemos esto colocando el intervalo de confianza del 95% para la función de autocorrelación muestral en el gráfico de autocorrelación muestral. La mayoría del software que puede generar el gráfico de autocorrelación también puede generar este intervalo de confianza.

La función de autocorrelación parcial de la muestra generalmente no es útil para identificar el orden del proceso de media móvil.

La siguiente tabla resume cómo se puede utilizar la función de autocorrelación de muestra para la identificación del modelo.

Hyndman y Athanasopoulos sugieren lo siguiente: ^[4]

Los datos pueden seguir un modelo ARIMA( p , d ,0) si los gráficos ACF y PACF de los datos diferenciados muestran los siguientes patrones:

el ACF decae exponencialmente o es sinusoidal;
hay un pico significativo en el rezago p en PACF, pero ninguno más allá del rezago p .

Los datos pueden seguir un modelo ARIMA(0, d , q ) si los gráficos ACF y PACF de los datos diferenciados muestran los siguientes patrones:

el PACF decae exponencialmente o es sinusoidal;
hay un pico significativo en el retraso q en ACF, pero ninguno más allá del retraso q .

En la práctica, las funciones de autocorrelación muestral y de autocorrelación parcial son variables aleatorias y no dan la misma imagen que las funciones teóricas. Esto dificulta la identificación del modelo. En particular, los modelos mixtos pueden resultar particularmente difíciles de identificar. Aunque la experiencia es útil, desarrollar buenos modelos utilizando estos gráficos de muestra puede implicar mucho ensayo y error.

Estimación del modelo Box-Jenkins

Estimar los parámetros de los modelos Box-Jenkins implica aproximar numéricamente las soluciones de ecuaciones no lineales. Por esta razón, es común utilizar software estadístico diseñado para manejar este enfoque; prácticamente todos los paquetes estadísticos modernos cuentan con esta capacidad. Los principales enfoques para ajustar los modelos de Box-Jenkins son los mínimos cuadrados no lineales y la estimación de máxima verosimilitud. La estimación de máxima verosimilitud es generalmente la técnica preferida. Las ecuaciones de probabilidad para el modelo completo de Box-Jenkins son complicadas y no se incluyen aquí. Véase (Brockwell y Davis, 1991) para detalles matemáticos.

Diagnóstico del modelo Box-Jenkins

Supuestos para un proceso univariado estable

El diagnóstico de modelos para los modelos de Box-Jenkins es similar a la validación de modelos para el ajuste de mínimos cuadrados no lineal.

Es decir, se supone que el término de error _At sigue los supuestos para un proceso univariado estacionario. Los residuos deben ser ruido blanco (o independientes cuando sus distribuciones son normales) extraídos de una distribución fija con media y varianza constantes. Si el modelo de Box-Jenkins es un buen modelo para los datos, los residuos deberían satisfacer estos supuestos.

Si estos supuestos no se cumplen, es necesario ajustar un modelo más apropiado. Es decir, volver al paso de identificación del modelo e intentar desarrollar un modelo mejor. Es de esperar que el análisis de los residuos pueda proporcionar algunas pistas sobre un modelo más apropiado.

Una forma de evaluar si los residuos del modelo Box-Jenkins siguen los supuestos es generar gráficos estadísticos (incluido un gráfico de autocorrelación) de los residuos. También se podría observar el valor de la estadística de Box-Ljung .

Referencias

^ Caja, George; Jenkins, Gwilym (1970). Análisis de series temporales: previsión y control . San Francisco: Holden-Day.
^ Comandante, JJF; Koopman, SJ (2007). Introducción al análisis de series de tiempo y espacio de estados . Prensa de la Universidad de Oxford .
^ Brockwell, Peter J.; Davis, Richard A. (1991). Series temporales: teoría y métodos . Springer-Verlag. pag. 273. Código Bib : 1991tstm.book.....B.
^ Hyndman, Rob J; Atanasopoulos, George. Previsión: principios y práctica . Consultado el 18 de mayo de 2015 .

Otras lecturas

Beveridge, S.; Oickle, C. (1994), "Comparación de Box-Jenkins y métodos objetivos para determinar el orden de un modelo ARMA no estacional", Journal of Forecasting , 13 (5): 419–434, doi :10.1002/for.3980130502
Pankratz, Alan (1983), Predicción con modelos univariados de Box-Jenkins: conceptos y casos , John Wiley & Sons

enlaces externos

Un primer curso sobre análisis de series temporales: un libro de código abierto sobre análisis de series temporales con SAS (Capítulo 7)
Modelos de Box-Jenkins en el Manual de estadísticas de ingeniería del NIST
Modelado de Box-Jenkins por Rob J Hyndman
La metodología Box-Jenkins para modelos de series temporales por Theresa Hoang Diem Ngo

Este artículo incorpora material de dominio público del Instituto Nacional de Estándares y Tecnología.