Promedio móvil integrado autorregresivo

En el análisis de series de tiempo tal como se utiliza en estadística y econometría , un modelo autorregresivo de promedio móvil integrado ( ARIMA ) es una generalización de un modelo autorregresivo de promedio móvil (ARMA). Estos modelos se ajustan a datos de series de tiempo para comprender mejor los datos o predecir puntos futuros de la serie. Los modelos ARIMA se utilizan en algunos casos donde hay evidencia de que los datos tienen un valor esperado no estacionario (pero no varianza/ autocovarianza ). En este caso, se aplica un paso de diferenciación inicial (que corresponde a la parte "integrada" del modelo) para eliminar la no estacionariedad de la función media (es decir, la tendencia). ^[1] Cuando hay evidencia de estacionalidad en una serie de tiempo, se puede utilizar la diferenciación estacional ^[2] para eliminar el componente estacional. Según el teorema de descomposición de Wold, ^[3]^[4]^[5] el modelo ARMA es suficiente para describir una serie temporal estacionaria de sentido amplio regular (también conocida como puramente no determinista ^[5] ) , por lo que estamos motivados a hacer que dicha serie temporal no estacionaria sea estacionaria, por ejemplo, mediante el uso de diferenciación, antes de poder usar el modelo ARMA. ^[6] Si la serie temporal contiene un subproceso predecible (también conocido como proceso exponencial de valor complejo o seno puro ^[4] ), el componente predecible se trata como un componente de media distinta de cero pero periódico (es decir, estacional) en el marco ARIMA para que se elimine mediante la diferenciación estacional.

La parte "autorregresiva" ( AR ) de ARIMA indica que la variable evolutiva de interés se regresiona sobre sus valores anteriores. La parte "promedio móvil" ( MA ) indica que el error de regresión es una combinación lineal de términos de error cuyos valores ocurrieron contemporáneamente y en varios momentos en el pasado. ^[7] La parte "integrada" ( I ) indica que los valores de los datos han sido reemplazados con la diferencia entre sus valores y los valores anteriores (y este proceso puede haberse realizado más de una vez). El propósito de cada una de estas características es hacer que el modelo se ajuste a los datos lo mejor posible.

Los modelos ARIMA no estacionales generalmente se denotan ARIMA( p , d , q ) donde los parámetros p , d y q son números enteros no negativos, p es el orden (número de rezagos de tiempo) del modelo autorregresivo , d es el grado de diferenciación (el número de veces que se han restado valores pasados de los datos) y q es el orden del modelo de promedio móvil . Los modelos ARIMA estacionales generalmente se denotan ARIMA( p , d , q )( P , D , Q ) _m , donde m se refiere al número de períodos en cada temporada, y las mayúsculas P , D , Q se refieren a los términos autorregresivos, de diferenciación y de promedio móvil para la parte estacional del modelo ARIMA. ^[8]^[2]

Cuando dos de los tres términos son ceros, se puede hacer referencia al modelo basándose en el parámetro distinto de cero, eliminando " AR ", " I " o " MA " del acrónimo que describe el modelo. Por ejemplo, ⁠ ⁠ ${\text{ARIMA}}(1,0,0)$ es $AR(1)$ , ⁠ ⁠ ${\text{ARIMA}}(0,1,0)$ es $I(1)$ y ⁠ ⁠ ${\text{ARIMA}}(0,0,1)$ es $MA(1)$ .

Los modelos ARIMA se pueden estimar siguiendo el enfoque Box-Jenkins .

Definición

Dados datos de series de tiempo X _t donde t es un índice entero y X _t son números reales, se proporciona un modelo mediante ${\text{ARMA}}(p',q)$

X_{t}-\alpha _{1}X_{t-1}-\dots -\alpha _{p'}X_{t-p'}=\varepsilon _{t}+\theta _{1}\varepsilon _{t-1}+\cdots +\theta _{q}\varepsilon _{t-q},

o equivalentemente por

\left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)X_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}\,

donde es el operador de retardo , son los parámetros de la parte autorregresiva del modelo, son los parámetros de la parte de promedio móvil y son los términos de error. Por lo general, se supone que los términos de error son variables independientes, idénticamente distribuidas, muestreadas a partir de una distribución normal con media cero. $L$ $\alpha _{i}$ $\theta _{i}$ $\varepsilon _{t}$ $\varepsilon _{t}$

Si el polinomio tiene una raíz unitaria (un factor ) de multiplicidad d , entonces se puede reescribir como: $\textstyle \left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)$ $(1-L)$

\left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)=\left(1-\sum _{i=1}^{p'-d}\varphi _{i}L^{i}\right)\left(1-L\right)^{d}.

Un proceso ARIMA( p , d , q ) expresa esta propiedad de factorización polinomial con p = p'−d , y se da por:

\left(1-\sum _{i=1}^{p}\varphi _{i}L^{i}\right)(1-L)^{d}X_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}\,

y también es un caso especial de un proceso ARMA( p+d , q ) que tiene el polinomio autorregresivo con raíces unitarias d . (Esta es la razón por la que ningún proceso que se describa con precisión mediante un modelo ARIMA con d > 0 es estacionario en sentido amplio ).

Lo anterior se puede generalizar de la siguiente manera.

\left(1-\sum _{i=1}^{p}\varphi _{i}L^{i}\right)(1-L)^{d}X_{t}=\delta +\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}.\,

Esto define un proceso ARIMA( p , d , q ) con deriva . ${\frac {\delta }{1-\sum \varphi _{i}}}$

Otras formas especiales

La identificación explícita de la factorización del polinomio de autorregresión en factores como se indicó anteriormente se puede extender a otros casos, en primer lugar para aplicarlo al polinomio de promedio móvil y en segundo lugar para incluir otros factores especiales. Por ejemplo, tener un factor en un modelo es una forma de incluir una estacionalidad no estacionaria del período s en el modelo; este factor tiene el efecto de reexpresar los datos como cambios con respecto a períodos s anteriores. Otro ejemplo es el factor , que incluye una estacionalidad (no estacionaria) del período 2. ^[^{aclaración necesaria}^] El efecto del primer tipo de factor es permitir que el valor de cada estación se desplace por separado a lo largo del tiempo, mientras que con el segundo tipo los valores de las estaciones adyacentes se mueven juntos. ^[^{aclaración necesaria}^] $(1-L^{s})$ $\left(1-{\sqrt {3}}L+L^{2}\right)$

La identificación y especificación de factores apropiados en un modelo ARIMA puede ser un paso importante en el modelado, ya que puede permitir una reducción en el número total de parámetros a estimar y al mismo tiempo permitir la imposición en el modelo de tipos de comportamiento que la lógica y la experiencia sugieren que deberían estar allí.

Diferenciación

Las propiedades de una serie temporal estacionaria no dependen del momento en el que se observa la serie. En concreto, para una serie temporal estacionaria de sentido amplio , la media y la varianza/ autocovarianza son constantes a lo largo del tiempo. La diferenciación en estadística es una transformación aplicada a una serie temporal no estacionaria para hacerla estacionaria en el sentido medio (es decir, para eliminar la tendencia no constante), pero que no tiene nada que ver con la no estacionariedad de la varianza o la autocovarianza . Del mismo modo, la diferenciación estacional se aplica a una serie temporal estacional para eliminar el componente estacional. Desde la perspectiva del procesamiento de señales, especialmente la teoría del análisis espectral de Fourier , la tendencia es la parte de baja frecuencia en el espectro de una serie temporal no estacionaria, mientras que la temporada es la parte de frecuencia periódica en el espectro de la misma. Por lo tanto, la diferenciación funciona como un filtro de paso alto (es decir, de paso bajo) y la diferenciación estacional como un filtro de peine para suprimir la tendencia de baja frecuencia y la temporada de frecuencia periódica en el dominio del espectro (en lugar de directamente en el dominio del tiempo), respectivamente. ^[6]

Para diferenciar los datos, se calcula la diferencia entre observaciones consecutivas. Matemáticamente, esto se muestra como

y_{t}'=y_{t}-y_{t-1}\,

La diferenciación elimina los cambios en el nivel de una serie temporal, eliminando la tendencia y la estacionalidad y estabilizando así la media de la serie temporal. ^[6]

A veces puede ser necesario diferenciar los datos una segunda vez para obtener una serie de tiempo estacionaria, lo que se conoce como diferenciación de segundo orden :

{\begin{aligned}y_{t}^{*}&=y_{t}'-y_{t-1}'\\&=(y_{t}-y_{t-1})-(y_{t-1}-y_{t-2})\\&=y_{t}-2y_{t-1}+y_{t-2}\end{aligned}}

Otro método para diferenciar datos es la diferenciación estacional, que implica calcular la diferencia entre una observación y la observación correspondiente en la estación anterior, por ejemplo, un año. Esto se muestra como:

y_{t}'=y_{t}-y_{t-m}\quad {\text{where }}m={\text{duration of season}}.

Los datos diferenciados se utilizan luego para la estimación de un modelo ARMA .

Ejemplos

Algunos casos especiales bien conocidos surgen de forma natural o son matemáticamente equivalentes a otros modelos de pronóstico populares. Por ejemplo:

Un modelo ARIMA(0, 1, 0) (o modelo $I(1)$ ) viene dado por — que es simplemente un paseo aleatorio . $X_{t}=X_{t-1}+\varepsilon _{t}$
Un ARIMA(0, 1, 0) con una constante, dada por — que es un paseo aleatorio con deriva. $X_{t}=c+X_{t-1}+\varepsilon _{t}$
Un modelo ARIMA(0, 0, 0) es un modelo de ruido blanco .
Un modelo ARIMA(0, 1, 2) es un modelo de Holt amortiguado.
Un modelo ARIMA(0, 1, 1) sin constante es un modelo de suavizado exponencial básico . ^[9]
Un modelo ARIMA(0, 2, 2) viene dado por — que es equivalente al método lineal de Holt con errores aditivos, o suavizado exponencial doble . ^[9] $X_{t}=2X_{t-1}-X_{t-2}+(\alpha +\beta -2)\varepsilon _{t-1}+(1-\alpha )\varepsilon _{t-2}+\varepsilon _{t}$

Elección del orden

El orden p y q se pueden determinar utilizando el método de función de autocorrelación de muestra (ACF), función de autocorrelación parcial (PACF) y/o función de autocorrelación extendida (EACF). ^[10]

Otros métodos alternativos incluyen AIC, BIC, etc. ^[10] Para determinar el orden de un modelo ARIMA no estacional, un criterio útil es el criterio de información de Akaike (AIC) . Se escribe como

{\text{AIC}}=-2\log(L)+2(p+q+k),

donde L es la probabilidad de los datos, p es el orden de la parte autorregresiva y q es el orden de la parte de promedio móvil. La k representa la intersección del modelo ARIMA. Para AIC, si k = 1, entonces hay una intersección en el modelo ARIMA ( c ≠ 0) y si k = 0, entonces no hay intersección en el modelo ARIMA ( c = 0).

El AIC corregido para los modelos ARIMA se puede escribir como

{\text{AICc}}={\text{AIC}}+{\frac {2(p+q+k)(p+q+k+1)}{T-p-q-k-1}}.

El criterio de información bayesiano (BIC) se puede escribir como

{\text{BIC}}={\text{AIC}}+((\log T)-2)(p+q+k).

El objetivo es minimizar los valores AIC, AICc o BIC para un buen modelo. Cuanto menor sea el valor de uno de estos criterios para una serie de modelos investigados, mejor se adaptará el modelo a los datos. El AIC y el BIC se utilizan para dos propósitos completamente diferentes. Mientras que el AIC intenta aproximar los modelos a la realidad de la situación, el BIC intenta encontrar el ajuste perfecto. El enfoque BIC suele ser criticado porque nunca se ajusta perfectamente a los datos complejos de la vida real; sin embargo, sigue siendo un método útil para la selección, ya que penaliza más a los modelos por tener más parámetros que los que tendría el AIC.

AICc solo se puede utilizar para comparar modelos ARIMA con los mismos órdenes de diferenciación. Para ARIMA con diferentes órdenes de diferenciación, se puede utilizar RMSE para la comparación de modelos.

Estimación de coeficientes

Previsiones utilizando modelos ARIMA

El modelo ARIMA puede considerarse como una "cascada" de dos modelos. El primero no es estacionario:

Y_{t}=(1-L)^{d}X_{t}

mientras que el segundo es estacionario en sentido amplio :

\left(1-\sum _{i=1}^{p}\varphi _{i}L^{i}\right)Y_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}\,.

Ahora se pueden hacer pronósticos para el proceso , utilizando una generalización del método de pronóstico autorregresivo . $Y_{t}$

Intervalos de pronóstico

Los intervalos de pronóstico ( intervalos de confianza para pronósticos) para los modelos ARIMA se basan en suposiciones de que los residuos no están correlacionados y se distribuyen normalmente. Si cualquiera de estas suposiciones no se cumple, los intervalos de pronóstico pueden ser incorrectos. Por este motivo, los investigadores trazan la ACF y el histograma de los residuos para verificar los supuestos antes de producir intervalos de pronóstico.

Intervalo de pronóstico del 95%: , donde es la varianza de . ${\hat {y}}_{T+h\,\mid \,T}\pm 1.96{\sqrt {v_{T+h\,\mid \,T}}}$ $v_{T+h\mid T}$ $y_{T+h}\mid y_{1},\dots ,y_{T}$

Para , para todos los modelos ARIMA independientemente de los parámetros y pedidos. $h=1$ $v_{T+h\,\mid \,T}={\hat {\sigma }}^{2}$

Para ARIMA(0,0,q), $y_{t}=e_{t}+\sum _{i=1}^{q}\theta _{i}e_{t-i}.$

v_{T+h\,\mid \,T}={\hat {\sigma }}^{2}\left[1+\sum _{i=1}^{h-1}\theta _{i}e_{t-i}\right],{\text{ for }}h=2,3,\ldots

^{[ cita requerida ]}

En general, los intervalos de pronóstico de los modelos ARIMA aumentarán a medida que aumente el horizonte de pronóstico.

Variaciones y ampliaciones

Se emplean comúnmente varias variaciones del modelo ARIMA. Si se utilizan múltiples series temporales, se las puede considerar como vectores y un modelo VARIMA puede ser apropiado. A veces se sospecha un efecto estacional en el modelo; en ese caso, generalmente se considera mejor utilizar un modelo SARIMA (ARIMA estacional) que aumentar el orden de las partes AR o MA del modelo. ^[11] Si se sospecha que la serie temporal exhibe dependencia de largo alcance , entonces se puede permitir que el parámetro d tenga valores no enteros en un modelo de promedio móvil integrado fraccionariamente autorregresivo , que también se denomina modelo ARIMA fraccional (FARIMA o ARFIMA). $X_{t}$

Implementaciones de software

Hay varios paquetes que aplican una metodología como la optimización de parámetros Box-Jenkins para encontrar los parámetros correctos para el modelo ARIMA.

EViews : tiene amplias capacidades ARIMA y SARIMA.
Julia : contiene una implementación ARIMA en el paquete TimeModels ^[12]
Mathematica : incluye la función ARIMAProcess.
MATLAB : la caja de herramientas de econometría incluye modelos ARIMA y regresión con errores ARIMA
NCSS : incluye varios procedimientos de ARIMAajuste y previsión. ^[13]^[14]^[15]
Python : el paquete "statsmodels" incluye modelos para análisis de series de tiempo – análisis de series de tiempo univariadas: AR, ARIMA – modelos vectoriales autorregresivos, VAR y VAR estructural – estadísticas descriptivas y modelos de proceso para análisis de series de tiempo.
R : el paquete de estadísticas estándar de R incluye una función arima , que está documentada en "Modelado ARIMA de series temporales". Además de la parte ⁠ ⁠ ${\text{ARIMA}}(p,d,q)$ , la función también incluye factores estacionales, un término de intersección y variables exógenas ( xreg , llamadas "regresores externos"). El paquete astsa tiene scripts como sarima para estimar modelos estacionales o no estacionales y sarima.sim para simular a partir de estos modelos. La vista de tareas de CRAN sobre series temporales es la referencia con muchos más enlaces. El paquete "forecast" en R puede seleccionar automáticamente un modelo ARIMA para una serie temporal dada con la auto.arima()función [que a menudo puede dar resultados cuestionables][1] y también puede simular modelos ARIMA estacionales y no estacionales con su simulate.Arima()función. ^[16]
Ruby : la gema "statsample-timeseries" se utiliza para el análisis de series de tiempo, incluidos los modelos ARIMA y el filtrado de Kalman.
JavaScript : el paquete "arima" incluye modelos para el análisis y pronóstico de series temporales (ARIMA, SARIMA, SARIMAX, AutoARIMA)
C : el paquete "ctsa" incluye ARIMA, SARIMA, SARIMAX, AutoARIMA y múltiples métodos para el análisis de series de tiempo.
CAJAS DE HERRAMIENTAS SEGURAS: incluye modelado ARIMA y regresión con errores ARIMA.
SAS : incluye procesamiento ARIMA extenso en su sistema de análisis econométrico y de series de tiempo: SAS/ETS.
IBM SPSS : incluye modelado ARIMA en las ediciones Professional y Premium de su paquete Statistics, así como en su paquete Modeler. La función predeterminada Expert Modeler evalúa una gama de configuraciones autorregresivas ( p ), integradas ( d ) y de promedio móvil ( q ) estacionales y no estacionales y siete modelos de suavizado exponencial. Expert Modeler también puede transformar los datos de series temporales de destino en su raíz cuadrada o logaritmo natural. El usuario también tiene la opción de restringir Expert Modeler a los modelos ARIMA o de ingresar manualmente las configuraciones p , d y q no estacionales y estacionales de ARIMA sin Expert Modeler. La detección automática de valores atípicos está disponible para siete tipos de valores atípicos, y los valores atípicos detectados se acomodarán en el modelo de series temporales si se selecciona esta función.
SAP : el paquete APO-FCS ^[17] en SAP ERP de SAP permite la creación y ajuste de modelos ARIMA utilizando la metodología Box–Jenkins.
SQL Server Analysis Services : de Microsoft incluye ARIMA como algoritmo de minería de datos.
Stata incluye modelado ARIMA (utilizando su comando arima) a partir de Stata 9.
StatSim: incluye modelos ARIMA en la aplicación web Forecast.
Teradata Vantage tiene la función ARIMA como parte de su motor de aprendizaje automático.
TOL (lenguaje orientado al tiempo) está diseñado para modelar modelos ARIMA (incluidas las variantes SARIMA, ARIMAX y DSARIMAX) [2].
Scala : la biblioteca spark-timeseries contiene la implementación de ARIMA para Scala, Java y Python. La implementación está diseñada para ejecutarse en Apache Spark .
PostgreSQL /MadLib: Análisis de series de tiempo/ARIMA.
X-12-ARIMA : de la Oficina del Censo de los Estados Unidos

Véase también

Referencias

^ Para obtener más información sobre estacionariedad y diferenciación, consulte https://www.otexts.org/fpp/8/1
^ ab Hyndman, Rob J; Athanasopoulos, George. 8.9 Modelos ARIMA estacionales. oTextos . Consultado el 19 de mayo de 2015 . {{cite book}}: |website=ignorado ( ayuda )
^ Hamilton, James (1994). Análisis de series temporales . Princeton University Press. ISBN 9780691042893.
^ ab Papoulis, Athanasios (2002). Probabilidad, variables aleatorias y procesos estocásticos . Tata McGraw-Hill Education.
^ ab Triacca, Umberto (19 de febrero de 2021). "El teorema de descomposición de Wold" (PDF) . Archivado (PDF) del original el 27 de marzo de 2016.
^ abc Wang, Shixiong; Li, Chongshou; Lim, Andrew (18 de diciembre de 2019). "¿Por qué ARIMA y SARIMA no son suficientes?". arXiv : 1904.07632 [stat.AP].
^ Box, George EP (2015). Análisis de series temporales: pronóstico y control . WILEY. ISBN 978-1-118-67502-1.
^ "Notación para modelos ARIMA". Sistema de pronóstico de series temporales . SAS Institute . Consultado el 19 de mayo de 2015 .
^ ab "Introducción a los modelos ARIMA". people.duke.edu . Consultado el 5 de junio de 2016 .
^ ab Universidad Estatal de Missouri. "Especificación del modelo, análisis de series de tiempo" (PDF) .
^ Swain, S; et al. (2018). "Desarrollo de un modelo ARIMA para la previsión mensual de precipitaciones en el distrito de Khordha, Odisha, India". Hallazgos recientes en técnicas de computación inteligente . Avances en sistemas inteligentes y computación. Vol. 708. págs. 325–331). doi :10.1007/978-981-10-8636-6_34. ISBN 978-981-10-8635-9. {{cite book}}: |journal=ignorado ( ayuda )
^ TimeModels.jl www.github.com
^ ARIMA en NCSS,
^ ARMA automático en NCSS,
^ Autocorrelaciones y autocorrelaciones parciales en NCSS
^ 8.7 Modelado ARIMA en R | OTexts . Consultado el 12 de mayo de 2016 . {{cite book}}: |website=ignorado ( ayuda )
^ "Modelo de Box Jenkins". SAP . Consultado el 8 de marzo de 2013 .

Lectura adicional

Asteriou, Dimitros; Hall, Stephen G. (2011). "Modelos ARIMA y la metodología Box-Jenkins". Econometría aplicada (segunda edición). Palgrave MacMillan. págs. 265–286. ISBN 978-0-230-27182-1.
Mills, Terence C. (1990). Técnicas de series temporales para economistas . Cambridge University Press. ISBN 978-0-521-34339-8.
Percival, Donald B.; Walden, Andrew T. (1993). Análisis espectral para aplicaciones físicas . Cambridge University Press. ISBN 978-0-521-35532-2.
Shumway RH y Stoffer, DS (2017). Análisis de series temporales y sus aplicaciones: con ejemplos de R. Springer. DOI: 10.1007/978-3-319-52452-8
Modelos ARIMA en R. Conviértase en un experto en el ajuste de modelos ARIMA (promedio móvil integrado autorregresivo) a datos de series de tiempo utilizando R.

Enlaces externos

La Oficina del Censo de los EE. UU. utiliza ARIMA para datos "ajustados estacionalmente" (programas, documentos y artículos aquí)
Notas de clase sobre modelos ARIMA (Robert Nau, Duke University)