En el análisis de series temporales utilizado en estadística y econometría , los modelos autorregresivos de media móvil integrada ( ARIMA ) y ARIMA estacional ( SARIMA ) son generalizaciones del modelo autorregresivo de media móvil (ARMA) a series no estacionarias y variación periódica, respectivamente. Todos estos modelos se ajustan a series temporales para comprenderlas mejor y predecir valores futuros. El propósito de estas generalizaciones es ajustar los datos lo mejor posible. En concreto, ARMA supone que la serie es estacionaria , es decir, su valor esperado es constante en el tiempo. Si en cambio la serie tiene una tendencia (pero una varianza/ autocovarianza constante ), la tendencia se elimina mediante "diferenciación", [1] dejando una serie estacionaria. Esta operación generaliza ARMA y corresponde a la parte " integrada " de ARIMA. Análogamente, la variación periódica se elimina mediante "diferenciación estacional". [2]
Al igual que en ARMA, la parte "autorregresiva" ( AR ) de ARIMA indica que la variable evolutiva de interés se regresiona sobre sus valores anteriores. La parte "promedio móvil" ( MA ) indica que el error de regresión es una combinación lineal de términos de error cuyos valores ocurrieron contemporáneamente y en varios momentos en el pasado. [3] La parte "integrada" ( I ) indica que los valores de los datos se han reemplazado con la diferencia entre cada valor y el valor anterior.
Según el teorema de descomposición de Wold , [4] [5] [6] el modelo ARMA es suficiente para describir una serie temporal estacionaria de sentido amplio regular (también conocida como puramente no determinista [6] ) , por lo que estamos motivados a hacer que dicha serie temporal no estacionaria sea estacionaria, por ejemplo, mediante el uso de diferenciación, antes de poder usar ARMA. [7]
Si la serie temporal contiene un subproceso predecible (también conocido como proceso exponencial de valor complejo o de seno puro [5] ), el componente predecible se trata como un componente de media distinta de cero pero periódico (es decir, estacional) en el marco ARIMA y se elimina mediante la diferenciación estacional.
Los modelos ARIMA no estacionales se denotan generalmente ARIMA( p , d , q ) donde los parámetros p , d , q son números enteros no negativos: p es el orden (número de rezagos de tiempo) del modelo autorregresivo , d es el grado de diferenciación (el número de veces que se han restado valores pasados de los datos) y q es el orden del modelo de promedio móvil . Los modelos ARIMA estacionales se denotan generalmente ARIMA( p , d , q )( P , D , Q ) m , donde P , D , Q mayúsculas son los términos autorregresivos, de diferenciación y de promedio móvil para la parte estacional del modelo ARIMA y m es el número de períodos en cada temporada. [8] [2] Cuando dos de los parámetros son 0, se puede hacer referencia al modelo en función del parámetro distinto de cero, eliminando " AR ", " I " o " MA " del acrónimo. Por ejemplo, es AR(1) , es I(1) , y es MA(1) .
Dados datos de series de tiempo X t donde t es un índice entero y X t son números reales, se da un modelo mediante
o equivalentemente por
donde es el operador de retardo , son los parámetros de la parte autorregresiva del modelo, son los parámetros de la parte de promedio móvil y son los términos de error. Por lo general, se supone que los términos de error son variables independientes, idénticamente distribuidas, muestreadas a partir de una distribución normal con media cero.
Si el polinomio tiene una raíz unitaria (un factor ) de multiplicidad d , entonces se puede reescribir como:
Un proceso ARIMA( p , d , q ) expresa esta propiedad de factorización polinomial con p = p'−d , y se da por:
y también es un caso especial de un proceso ARMA( p+d , q ) que tiene el polinomio autorregresivo con raíces unitarias d . (Esta es la razón por la cual ningún proceso que se describa con precisión mediante un modelo ARIMA con d > 0 es estacionario en sentido amplio ).
Lo anterior se puede generalizar de la siguiente manera.
Esto define un proceso ARIMA( p , d , q ) con deriva .
La identificación explícita de la factorización del polinomio de autorregresión en factores como se indicó anteriormente se puede extender a otros casos, en primer lugar para aplicarlo al polinomio de promedio móvil y en segundo lugar para incluir otros factores especiales. Por ejemplo, tener un factor en un modelo es una forma de incluir una estacionalidad no estacionaria del período s en el modelo; este factor tiene el efecto de reexpresar los datos como cambios con respecto a períodos s anteriores. Otro ejemplo es el factor , que incluye una estacionalidad (no estacionaria) del período 2. [ aclaración necesaria ] El efecto del primer tipo de factor es permitir que el valor de cada estación se desplace por separado a lo largo del tiempo, mientras que con el segundo tipo los valores de las estaciones adyacentes se mueven juntos. [ aclaración necesaria ]
La identificación y especificación de factores apropiados en un modelo ARIMA puede ser un paso importante en el modelado, ya que puede permitir una reducción en el número total de parámetros a estimar y al mismo tiempo permitir la imposición en el modelo de tipos de comportamiento que la lógica y la experiencia sugieren que deberían estar presentes.
Las propiedades de una serie temporal estacionaria no cambian. En concreto, en el caso de una serie temporal estacionaria en sentido amplio , la media y la varianza/ autocovarianza son constantes a lo largo del tiempo. La diferenciación en estadística es una transformación que se aplica a una serie temporal no estacionaria para hacerla estacionaria en el sentido de la media (es decir, para eliminar la tendencia no constante), pero no afecta a la no estacionariedad de la varianza o la autocovarianza . Del mismo modo, la diferenciación estacional se aplica a una serie temporal estacional para eliminar el componente estacional.
Desde la perspectiva del procesamiento de señales, especialmente la teoría del análisis espectral de Fourier , la tendencia es una parte de baja frecuencia en el espectro de una serie, mientras que la estación es una parte de frecuencia periódica. Por lo tanto, la diferenciación es un filtro de paso alto (es decir, de paso bajo) y la diferenciación estacional es un filtro de peine para suprimir respectivamente la tendencia de baja frecuencia y la estación de frecuencia periódica en el dominio del espectro (en lugar de hacerlo directamente en el dominio del tiempo). [7]
Para diferenciar los datos, calculamos la diferencia entre observaciones consecutivas. Matemáticamente, esto se muestra como
Puede ser necesario diferenciar los datos una segunda vez para obtener una serie temporal estacionaria, lo que se denomina diferenciación de segundo orden :
La diferenciación estacional implica calcular la diferencia entre una observación y la observación correspondiente en la estación anterior, por ejemplo, un año. Esto se muestra como:
Los datos diferenciados se utilizan luego para la estimación de un modelo ARMA .
Algunos casos especiales bien conocidos surgen de forma natural o son matemáticamente equivalentes a otros modelos de pronóstico populares. Por ejemplo:
El orden p y q se puede determinar utilizando el método de función de autocorrelación de muestra (ACF), función de autocorrelación parcial (PACF) y/o función de autocorrelación extendida (EACF). [10]
Otros métodos alternativos incluyen AIC, BIC, etc. [10] Para determinar el orden de un modelo ARIMA no estacional, un criterio útil es el criterio de información de Akaike (AIC) . Se escribe como
donde L es la probabilidad de los datos, p es el orden de la parte autorregresiva y q es el orden de la parte de promedio móvil. La k representa la intersección del modelo ARIMA. Para AIC, si k = 1, entonces hay una intersección en el modelo ARIMA ( c ≠ 0) y si k = 0, entonces no hay intersección en el modelo ARIMA ( c = 0).
El AIC corregido para los modelos ARIMA se puede escribir como
El criterio de información bayesiano (BIC) se puede escribir como
El objetivo es minimizar los valores AIC, AICc o BIC para un buen modelo. Cuanto menor sea el valor de uno de estos criterios para una serie de modelos investigados, mejor se adaptará el modelo a los datos. El AIC y el BIC se utilizan para dos propósitos completamente diferentes. Mientras que el AIC intenta aproximar los modelos a la realidad de la situación, el BIC intenta encontrar el ajuste perfecto. El enfoque BIC suele ser criticado porque nunca se ajusta perfectamente a los datos complejos de la vida real; sin embargo, sigue siendo un método útil para la selección, ya que penaliza más a los modelos por tener más parámetros que los que tendría el AIC.
AICc solo se puede utilizar para comparar modelos ARIMA con los mismos órdenes de diferenciación. Para ARIMA con diferentes órdenes de diferenciación, se puede utilizar RMSE para la comparación de modelos.
El modelo ARIMA puede considerarse como una "cascada" de dos modelos. El primero no es estacionario:
mientras que el segundo es estacionario en sentido amplio :
Ahora se pueden hacer pronósticos para el proceso , utilizando una generalización del método de pronóstico autorregresivo .
Los intervalos de pronóstico ( intervalos de confianza para pronósticos) para los modelos ARIMA se basan en suposiciones de que los residuos no están correlacionados y se distribuyen normalmente. Si cualquiera de estas suposiciones no se cumple, los intervalos de pronóstico pueden ser incorrectos. Por este motivo, los investigadores trazan la ACF y el histograma de los residuos para verificar los supuestos antes de producir intervalos de pronóstico.
Intervalo de pronóstico del 95%: , donde es la varianza de .
Para , para todos los modelos ARIMA independientemente de los parámetros y pedidos.
Para ARIMA(0,0,q),
En general, los intervalos de pronóstico de los modelos ARIMA aumentarán a medida que aumente el horizonte de pronóstico.
Se emplean comúnmente varias variaciones del modelo ARIMA. Si se utilizan múltiples series temporales, se las puede considerar como vectores y un modelo VARIMA puede ser apropiado. A veces se sospecha un efecto estacional en el modelo; en ese caso, generalmente se considera mejor utilizar un modelo SARIMA (ARIMA estacional) que aumentar el orden de las partes AR o MA del modelo. [11] Si se sospecha que la serie temporal exhibe dependencia de largo alcance , entonces se puede permitir que el parámetro d tenga valores no enteros en un modelo de promedio móvil integrado fraccionariamente autorregresivo , que también se denomina modelo ARIMA fraccional (FARIMA o ARFIMA).
Hay varios paquetes que aplican una metodología como la optimización de parámetros Box-Jenkins para encontrar los parámetros correctos para el modelo ARIMA.
ARIMA
ajuste y previsión. [13] [14] [15]auto.arima()
función [que a menudo puede dar resultados cuestionables][1] y también puede simular modelos ARIMA estacionales y no estacionales con su simulate.Arima()
función. [16]{{cite book}}
: |website=
ignorado ( ayuda ){{cite book}}
: |journal=
ignorado ( ayuda ){{cite book}}
: |website=
ignorado ( ayuda )