En el análisis de series de tiempo tal como se utiliza en estadística y econometría , un modelo autorregresivo de promedio móvil integrado ( ARIMA ) es una generalización de un modelo autorregresivo de promedio móvil (ARMA). Estos modelos se ajustan a datos de series de tiempo para comprender mejor los datos o predecir puntos futuros de la serie. Los modelos ARIMA se utilizan en algunos casos donde hay evidencia de que los datos tienen un valor esperado no estacionario (pero no varianza/ autocovarianza ). En este caso, se aplica un paso de diferenciación inicial (que corresponde a la parte "integrada" del modelo) para eliminar la no estacionariedad de la función media (es decir, la tendencia). [1] Cuando hay evidencia de estacionalidad en una serie de tiempo, se puede utilizar la diferenciación estacional [2] para eliminar el componente estacional. Según el teorema de descomposición de Wold, [3] [4] [5] el modelo ARMA es suficiente para describir una serie temporal estacionaria de sentido amplio regular (también conocida como puramente no determinista [5] ) , por lo que estamos motivados a hacer que dicha serie temporal no estacionaria sea estacionaria, por ejemplo, mediante el uso de diferenciación, antes de poder usar el modelo ARMA. [6] Si la serie temporal contiene un subproceso predecible (también conocido como proceso exponencial de valor complejo o seno puro [4] ), el componente predecible se trata como un componente de media distinta de cero pero periódico (es decir, estacional) en el marco ARIMA para que se elimine mediante la diferenciación estacional.
La parte "autorregresiva" ( AR ) de ARIMA indica que la variable evolutiva de interés se regresiona sobre sus valores anteriores. La parte "promedio móvil" ( MA ) indica que el error de regresión es una combinación lineal de términos de error cuyos valores ocurrieron contemporáneamente y en varios momentos en el pasado. [7] La parte "integrada" ( I ) indica que los valores de los datos han sido reemplazados con la diferencia entre sus valores y los valores anteriores (y este proceso puede haberse realizado más de una vez). El propósito de cada una de estas características es hacer que el modelo se ajuste a los datos lo mejor posible.
Los modelos ARIMA no estacionales generalmente se denotan ARIMA( p , d , q ) donde los parámetros p , d y q son números enteros no negativos, p es el orden (número de rezagos de tiempo) del modelo autorregresivo , d es el grado de diferenciación (el número de veces que se han restado valores pasados de los datos) y q es el orden del modelo de promedio móvil . Los modelos ARIMA estacionales generalmente se denotan ARIMA( p , d , q )( P , D , Q ) m , donde m se refiere al número de períodos en cada temporada, y las mayúsculas P , D , Q se refieren a los términos autorregresivos, de diferenciación y de promedio móvil para la parte estacional del modelo ARIMA. [8] [2]
Cuando dos de los tres términos son ceros, se puede hacer referencia al modelo basándose en el parámetro distinto de cero, eliminando " AR ", " I " o " MA " del acrónimo que describe el modelo. Por ejemplo, es AR(1) , es I(1) y es MA(1) .
Los modelos ARIMA se pueden estimar siguiendo el enfoque Box-Jenkins .
Dados datos de series de tiempo X t donde t es un índice entero y X t son números reales, se proporciona un modelo mediante
o equivalentemente por
donde es el operador de retardo , son los parámetros de la parte autorregresiva del modelo, son los parámetros de la parte de promedio móvil y son los términos de error. Por lo general, se supone que los términos de error son variables independientes, idénticamente distribuidas, muestreadas a partir de una distribución normal con media cero.
Si el polinomio tiene una raíz unitaria (un factor ) de multiplicidad d , entonces se puede reescribir como:
Un proceso ARIMA( p , d , q ) expresa esta propiedad de factorización polinomial con p = p'−d , y se da por:
y también es un caso especial de un proceso ARMA( p+d , q ) que tiene el polinomio autorregresivo con raíces unitarias d . (Esta es la razón por la que ningún proceso que se describa con precisión mediante un modelo ARIMA con d > 0 es estacionario en sentido amplio ).
Lo anterior se puede generalizar de la siguiente manera.
Esto define un proceso ARIMA( p , d , q ) con deriva .
La identificación explícita de la factorización del polinomio de autorregresión en factores como se indicó anteriormente se puede extender a otros casos, en primer lugar para aplicarlo al polinomio de promedio móvil y en segundo lugar para incluir otros factores especiales. Por ejemplo, tener un factor en un modelo es una forma de incluir una estacionalidad no estacionaria del período s en el modelo; este factor tiene el efecto de reexpresar los datos como cambios con respecto a períodos s anteriores. Otro ejemplo es el factor , que incluye una estacionalidad (no estacionaria) del período 2. [ aclaración necesaria ] El efecto del primer tipo de factor es permitir que el valor de cada estación se desplace por separado a lo largo del tiempo, mientras que con el segundo tipo los valores de las estaciones adyacentes se mueven juntos. [ aclaración necesaria ]
La identificación y especificación de factores apropiados en un modelo ARIMA puede ser un paso importante en el modelado, ya que puede permitir una reducción en el número total de parámetros a estimar y al mismo tiempo permitir la imposición en el modelo de tipos de comportamiento que la lógica y la experiencia sugieren que deberían estar allí.
Las propiedades de una serie temporal estacionaria no dependen del momento en el que se observa la serie. En concreto, para una serie temporal estacionaria de sentido amplio , la media y la varianza/ autocovarianza son constantes a lo largo del tiempo. La diferenciación en estadística es una transformación aplicada a una serie temporal no estacionaria para hacerla estacionaria en el sentido medio (es decir, para eliminar la tendencia no constante), pero que no tiene nada que ver con la no estacionariedad de la varianza o la autocovarianza . Del mismo modo, la diferenciación estacional se aplica a una serie temporal estacional para eliminar el componente estacional. Desde la perspectiva del procesamiento de señales, especialmente la teoría del análisis espectral de Fourier , la tendencia es la parte de baja frecuencia en el espectro de una serie temporal no estacionaria, mientras que la temporada es la parte de frecuencia periódica en el espectro de la misma. Por lo tanto, la diferenciación funciona como un filtro de paso alto (es decir, de paso bajo) y la diferenciación estacional como un filtro de peine para suprimir la tendencia de baja frecuencia y la temporada de frecuencia periódica en el dominio del espectro (en lugar de directamente en el dominio del tiempo), respectivamente. [6]
Para diferenciar los datos, se calcula la diferencia entre observaciones consecutivas. Matemáticamente, esto se muestra como
La diferenciación elimina los cambios en el nivel de una serie temporal, eliminando la tendencia y la estacionalidad y estabilizando así la media de la serie temporal. [6]
A veces puede ser necesario diferenciar los datos una segunda vez para obtener una serie de tiempo estacionaria, lo que se conoce como diferenciación de segundo orden :
Otro método para diferenciar datos es la diferenciación estacional, que implica calcular la diferencia entre una observación y la observación correspondiente en la estación anterior, por ejemplo, un año. Esto se muestra como:
Los datos diferenciados se utilizan luego para la estimación de un modelo ARMA .
Algunos casos especiales bien conocidos surgen de forma natural o son matemáticamente equivalentes a otros modelos de pronóstico populares. Por ejemplo:
El orden p y q se pueden determinar utilizando el método de función de autocorrelación de muestra (ACF), función de autocorrelación parcial (PACF) y/o función de autocorrelación extendida (EACF). [10]
Otros métodos alternativos incluyen AIC, BIC, etc. [10] Para determinar el orden de un modelo ARIMA no estacional, un criterio útil es el criterio de información de Akaike (AIC) . Se escribe como
donde L es la probabilidad de los datos, p es el orden de la parte autorregresiva y q es el orden de la parte de promedio móvil. La k representa la intersección del modelo ARIMA. Para AIC, si k = 1, entonces hay una intersección en el modelo ARIMA ( c ≠ 0) y si k = 0, entonces no hay intersección en el modelo ARIMA ( c = 0).
El AIC corregido para los modelos ARIMA se puede escribir como
El criterio de información bayesiano (BIC) se puede escribir como
El objetivo es minimizar los valores AIC, AICc o BIC para un buen modelo. Cuanto menor sea el valor de uno de estos criterios para una serie de modelos investigados, mejor se adaptará el modelo a los datos. El AIC y el BIC se utilizan para dos propósitos completamente diferentes. Mientras que el AIC intenta aproximar los modelos a la realidad de la situación, el BIC intenta encontrar el ajuste perfecto. El enfoque BIC suele ser criticado porque nunca se ajusta perfectamente a los datos complejos de la vida real; sin embargo, sigue siendo un método útil para la selección, ya que penaliza más a los modelos por tener más parámetros que los que tendría el AIC.
AICc solo se puede utilizar para comparar modelos ARIMA con los mismos órdenes de diferenciación. Para ARIMA con diferentes órdenes de diferenciación, se puede utilizar RMSE para la comparación de modelos.
El modelo ARIMA puede considerarse como una "cascada" de dos modelos. El primero no es estacionario:
mientras que el segundo es estacionario en sentido amplio :
Ahora se pueden hacer pronósticos para el proceso , utilizando una generalización del método de pronóstico autorregresivo .
Los intervalos de pronóstico ( intervalos de confianza para pronósticos) para los modelos ARIMA se basan en suposiciones de que los residuos no están correlacionados y se distribuyen normalmente. Si cualquiera de estas suposiciones no se cumple, los intervalos de pronóstico pueden ser incorrectos. Por este motivo, los investigadores trazan la ACF y el histograma de los residuos para verificar los supuestos antes de producir intervalos de pronóstico.
Intervalo de pronóstico del 95%: , donde es la varianza de .
Para , para todos los modelos ARIMA independientemente de los parámetros y pedidos.
Para ARIMA(0,0,q),
En general, los intervalos de pronóstico de los modelos ARIMA aumentarán a medida que aumente el horizonte de pronóstico.
Se emplean comúnmente varias variaciones del modelo ARIMA. Si se utilizan múltiples series temporales, se las puede considerar como vectores y un modelo VARIMA puede ser apropiado. A veces se sospecha un efecto estacional en el modelo; en ese caso, generalmente se considera mejor utilizar un modelo SARIMA (ARIMA estacional) que aumentar el orden de las partes AR o MA del modelo. [11] Si se sospecha que la serie temporal exhibe dependencia de largo alcance , entonces se puede permitir que el parámetro d tenga valores no enteros en un modelo de promedio móvil integrado fraccionariamente autorregresivo , que también se denomina modelo ARIMA fraccional (FARIMA o ARFIMA).
Hay varios paquetes que aplican una metodología como la optimización de parámetros Box-Jenkins para encontrar los parámetros correctos para el modelo ARIMA.
ARIMA
ajuste y previsión. [13] [14] [15]auto.arima()
función [que a menudo puede dar resultados cuestionables][1] y también puede simular modelos ARIMA estacionales y no estacionales con su simulate.Arima()
función. [16]{{cite book}}
: |website=
ignorado ( ayuda ){{cite book}}
: |journal=
ignorado ( ayuda ){{cite book}}
: |website=
ignorado ( ayuda )