Promedio móvil integrado autorregresivo

En el análisis de series temporales utilizado en estadística y econometría , los modelos autorregresivos de media móvil integrada ( ARIMA ) y ARIMA estacional ( SARIMA ) son generalizaciones del modelo autorregresivo de media móvil (ARMA) a series no estacionarias y variación periódica, respectivamente. Todos estos modelos se ajustan a series temporales para comprenderlas mejor y predecir valores futuros. El propósito de estas generalizaciones es ajustar los datos lo mejor posible. En concreto, ARMA supone que la serie es estacionaria , es decir, su valor esperado es constante en el tiempo. Si en cambio la serie tiene una tendencia (pero una varianza/ autocovarianza constante ), la tendencia se elimina mediante "diferenciación" ^[1] , dejando una serie estacionaria. Esta operación generaliza ARMA y corresponde a la parte " integrada " de ARIMA. Análogamente, la variación periódica se elimina mediante "diferenciación estacional". ^[2]

Componentes

Al igual que en ARMA, la parte "autorregresiva" ( AR ) de ARIMA indica que la variable evolutiva de interés se regresiona sobre sus valores anteriores. La parte "promedio móvil" ( MA ) indica que el error de regresión es una combinación lineal de términos de error cuyos valores ocurrieron contemporáneamente y en varios momentos en el pasado. ^[3] La parte "integrada" ( I ) indica que los valores de los datos se han reemplazado con la diferencia entre cada valor y el valor anterior.

Según el teorema de descomposición de Wold, ^[4]^[5]^[6] el modelo ARMA es suficiente para describir una serie temporal estacionaria de sentido amplio regular (también conocida como puramente no determinista ^[6] ) , por lo que estamos motivados a hacer que dicha serie temporal no estacionaria sea estacionaria, por ejemplo, mediante el uso de diferenciación, antes de poder usar ARMA. ^[7]

Si la serie temporal contiene un subproceso predecible (también conocido como proceso exponencial de valor complejo o de seno puro ^[5] ), el componente predecible se trata como un componente de media distinta de cero pero periódico (es decir, estacional) en el marco ARIMA y se elimina mediante la diferenciación estacional.

Formulación matemática

Los modelos ARIMA no estacionales se denotan generalmente ARIMA( p , d , q ) donde los parámetros p , d , q son números enteros no negativos: p es el orden (número de rezagos de tiempo) del modelo autorregresivo , d es el grado de diferenciación (el número de veces que se han restado valores pasados de los datos) y q es el orden del modelo de promedio móvil . Los modelos ARIMA estacionales se denotan generalmente ARIMA( p , d , q )( P , D , Q ) _m , donde P , D , Q mayúsculas son los términos autorregresivos, de diferenciación y de promedio móvil para la parte estacional del modelo ARIMA y m es el número de períodos en cada temporada. ^[8]^[2] Cuando dos de los parámetros son 0, se puede hacer referencia al modelo en función del parámetro distinto de cero, eliminando " AR ", " I " o " MA " del acrónimo. Por ejemplo, ⁠ ⁠ ${\text{ARIMA}}(1,0,0)$ es $AR(1)$ , ⁠ ⁠ ${\text{ARIMA}}(0,1,0)$ es $I(1)$ , y ⁠ ⁠ ${\text{ARIMA}}(0,0,1)$ es $MA(1)$ .

Dados datos de series de tiempo X _t donde t es un índice entero y X _t son números reales, se proporciona un modelo mediante ${\text{ARMA}}(p',q)$

X_{t}-\alpha _{1}X_{t-1}-\puntos -\alpha _{p'}X_{tp'}=\varepsilon _{t}+\theta _{1}\varepsilon _{t-1}+\cdots +\theta _{q}\varepsilon _{tq},

o equivalentemente por

\left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)X_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}\,

donde es el operador de retardo , son los parámetros de la parte autorregresiva del modelo, son los parámetros de la parte de promedio móvil y son los términos de error. Por lo general, se supone que los términos de error son variables independientes, idénticamente distribuidas, muestreadas a partir de una distribución normal con media cero. $L$ $\alpha _{i}$ $\theta _{i}$ $\varepsilon _{t}$ $\varepsilon _{t}$

Si el polinomio tiene una raíz unitaria (un factor ) de multiplicidad d , entonces se puede reescribir como: $\textstyle \left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)$ $(1-L)$

\left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)=\left(1-\sum _{i=1}^{p'-d}\varphi _{i}L^{i}\right)\left(1-L\right)^{d}.

Un proceso ARIMA( p , d , q ) expresa esta propiedad de factorización polinomial con p = p'−d , y se da por:

\left(1-\sum _{i=1}^{p}\varphi _{i}L^{i}\right)(1-L)^{d}X_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}\,

y también es un caso especial de un proceso ARMA( p+d , q ) que tiene el polinomio autorregresivo con raíces unitarias d . (Esta es la razón por la que ningún proceso que se describa con precisión mediante un modelo ARIMA con d > 0 es estacionario en sentido amplio ).

Lo anterior se puede generalizar de la siguiente manera.

\left(1-\sum _{i=1}^{p}\varphi _{i}L^{i}\right)(1-L)^{d}X_{t}=\delta +\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}.\,

Esto define un proceso ARIMA( p , d , q ) con deriva . ${\frac {\delta }{1-\sum \varphi _{i}}}$

Otras formas especiales

La identificación explícita de la factorización del polinomio de autorregresión en factores como se indicó anteriormente se puede extender a otros casos, en primer lugar para aplicarlo al polinomio de promedio móvil y en segundo lugar para incluir otros factores especiales. Por ejemplo, tener un factor en un modelo es una forma de incluir una estacionalidad no estacionaria del período s en el modelo; este factor tiene el efecto de reexpresar los datos como cambios con respecto a períodos s anteriores. Otro ejemplo es el factor , que incluye una estacionalidad (no estacionaria) del período 2. ^[^{aclaración necesaria}^] El efecto del primer tipo de factor es permitir que el valor de cada estación se desplace por separado a lo largo del tiempo, mientras que con el segundo tipo los valores de las estaciones adyacentes se mueven juntos. ^[^{aclaración necesaria}^] $(1-L^{s})$ $\left(1-{\sqrt {3}}L+L^{2}\right)$

La identificación y especificación de factores apropiados en un modelo ARIMA puede ser un paso importante en el modelado, ya que puede permitir una reducción en el número total de parámetros a estimar y al mismo tiempo permitir la imposición en el modelo de tipos de comportamiento que la lógica y la experiencia sugieren que deberían estar presentes.

Diferenciación

Las propiedades de una serie temporal estacionaria no cambian. En concreto, en el caso de una serie temporal estacionaria en sentido amplio , la media y la varianza/ autocovarianza son constantes a lo largo del tiempo. La diferenciación en estadística es una transformación que se aplica a una serie temporal no estacionaria para hacerla estacionaria en el sentido de la media (es decir, para eliminar la tendencia no constante), pero no afecta a la no estacionariedad de la varianza o la autocovarianza . Del mismo modo, la diferenciación estacional se aplica a una serie temporal estacional para eliminar el componente estacional.

Desde la perspectiva del procesamiento de señales, especialmente la teoría del análisis espectral de Fourier , la tendencia es una parte de baja frecuencia en el espectro de una serie, mientras que la estación es una parte de frecuencia periódica. Por lo tanto, la diferenciación es un filtro de paso alto (es decir, de paso bajo) y la diferenciación estacional es un filtro de peine para suprimir respectivamente la tendencia de baja frecuencia y la estación de frecuencia periódica en el dominio del espectro (en lugar de hacerlo directamente en el dominio del tiempo). ^[7]

Para diferenciar los datos, calculamos la diferencia entre observaciones consecutivas. Matemáticamente, esto se muestra como

y_{t}'=y_{t}-y_{t-1}\,

Puede ser necesario diferenciar los datos una segunda vez para obtener una serie temporal estacionaria, lo que se denomina diferenciación de segundo orden :

{\begin{aligned}y_{t}^{*}&=y_{t}'-y_{t-1}'\\&=(y_{t}-y_{t-1})-(y_{t-1}-y_{t-2})\\&=y_{t}-2y_{t-1}+y_{t-2}\end{aligned}}

La diferenciación estacional implica calcular la diferencia entre una observación y la observación correspondiente en la estación anterior, por ejemplo, un año. Esto se muestra como:

y_{t}'=y_{t}-y_{t-m}\quad {\text{where }}m={\text{duration of season}}.

Los datos diferenciados se utilizan luego para la estimación de un modelo ARMA .

Ejemplos

Algunos casos especiales bien conocidos surgen de forma natural o son matemáticamente equivalentes a otros modelos de pronóstico populares. Por ejemplo:

Un modelo ARIMA(0, 1, 0) (o modelo $I(1)$ ) viene dado por — que es simplemente un paseo aleatorio . $X_{t}=X_{t-1}+\varepsilon _{t}$
Un ARIMA(0, 1, 0) con una constante, dada por — que es un paseo aleatorio con deriva. $X_{t}=c+X_{t-1}+\varepsilon _{t}$
Un modelo ARIMA(0, 0, 0) es un modelo de ruido blanco .
Un modelo ARIMA(0, 1, 2) es un modelo de Holt amortiguado.
Un modelo ARIMA(0, 1, 1) sin constante es un modelo de suavizado exponencial básico . ^[9]
Un modelo ARIMA(0, 2, 2) viene dado por — que es equivalente al método lineal de Holt con errores aditivos, o suavizado exponencial doble . ^[9] $X_{t}=2X_{t-1}-X_{t-2}+(\alpha +\beta -2)\varepsilon _{t-1}+(1-\alpha )\varepsilon _{t-2}+\varepsilon _{t}$

Elección del orden

El orden p y q se pueden determinar utilizando el método de función de autocorrelación de muestra (ACF), función de autocorrelación parcial (PACF) y/o función de autocorrelación extendida (EACF). ^[10]

Otros métodos alternativos incluyen AIC, BIC, etc. ^[10] Para determinar el orden de un modelo ARIMA no estacional, un criterio útil es el criterio de información de Akaike (AIC) . Se escribe como

{\text{AIC}}=-2\log(L)+2(p+q+k),

donde L es la probabilidad de los datos, p es el orden de la parte autorregresiva y q es el orden de la parte de promedio móvil. La k representa la intersección del modelo ARIMA. Para AIC, si k = 1, entonces hay una intersección en el modelo ARIMA ( c ≠ 0) y si k = 0, entonces no hay intersección en el modelo ARIMA ( c = 0).

El AIC corregido para los modelos ARIMA se puede escribir como

{\text{AICc}}={\text{AIC}}+{\frac {2(p+q+k)(p+q+k+1)}{T-p-q-k-1}}.

El criterio de información bayesiano (BIC) se puede escribir como

{\text{BIC}}={\text{AIC}}+((\log T)-2)(p+q+k).

El objetivo es minimizar los valores AIC, AICc o BIC para un buen modelo. Cuanto menor sea el valor de uno de estos criterios para una serie de modelos investigados, mejor se adaptará el modelo a los datos. El AIC y el BIC se utilizan para dos propósitos completamente diferentes. Mientras que el AIC intenta aproximar los modelos a la realidad de la situación, el BIC intenta encontrar el ajuste perfecto. El enfoque BIC suele ser criticado porque nunca se ajusta perfectamente a los datos complejos de la vida real; sin embargo, sigue siendo un método útil para la selección, ya que penaliza más a los modelos por tener más parámetros que los que tendría el AIC.

AICc solo se puede utilizar para comparar modelos ARIMA con los mismos órdenes de diferenciación. Para ARIMA con diferentes órdenes de diferenciación, se puede utilizar RMSE para la comparación de modelos.

Estimación de coeficientes

Previsiones utilizando modelos ARIMA

El modelo ARIMA puede considerarse como una "cascada" de dos modelos. El primero no es estacionario:

Y_{t}=(1-L)^{d}X_{t}

mientras que el segundo es estacionario en sentido amplio :

\left(1-\sum _{i=1}^{p}\varphi _{i}L^{i}\right)Y_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}\,.

Ahora se pueden hacer pronósticos para el proceso , utilizando una generalización del método de pronóstico autorregresivo . $Y_{t}$

Intervalos de pronóstico

Los intervalos de pronóstico ( intervalos de confianza para pronósticos) para los modelos ARIMA se basan en supuestos de que los residuos no están correlacionados y se distribuyen normalmente. Si alguno de estos supuestos no se cumple, los intervalos de pronóstico pueden ser incorrectos. Por este motivo, los investigadores trazan la ACF y el histograma de los residuos para comprobar los supuestos antes de producir intervalos de pronóstico.

Intervalo de pronóstico del 95%: , donde es la varianza de . ${\hat {y}}_{T+h\,\mid \,T}\pm 1.96{\sqrt {v_{T+h\,\mid \,T}}}$ $v_{T+h\mid T}$ $y_{T+h}\mid y_{1},\dots ,y_{T}$

Para , para todos los modelos ARIMA independientemente de los parámetros y pedidos. $h=1$ $v_{T+h\,\mid \,T}={\hat {\sigma }}^{2}$

Para ARIMA(0,0,q), $y_{t}=e_{t}+\sum _{i=1}^{q}\theta _{i}e_{t-i}.$

v_{T+h\,\mid \,T}={\hat {\sigma }}^{2}\left[1+\sum _{i=1}^{h-1}\theta _{i}e_{t-i}\right],{\text{ for }}h=2,3,\ldots

^{[ cita requerida ]}

En general, los intervalos de pronóstico de los modelos ARIMA aumentarán a medida que aumente el horizonte de pronóstico.

Variaciones y ampliaciones

Se emplean comúnmente varias variaciones del modelo ARIMA. Si se utilizan múltiples series temporales, se las puede considerar como vectores y un modelo VARIMA puede ser apropiado. A veces se sospecha un efecto estacional en el modelo; en ese caso, generalmente se considera mejor utilizar un modelo SARIMA (ARIMA estacional) que aumentar el orden de las partes AR o MA del modelo. ^[11] Si se sospecha que la serie temporal exhibe dependencia de largo alcance , entonces se puede permitir que el parámetro d tenga valores no enteros en un modelo de promedio móvil integrado fraccionariamente autorregresivo , que también se denomina modelo ARIMA fraccional (FARIMA o ARFIMA). $X_{t}$

Implementaciones de software

Hay varios paquetes que aplican una metodología como la optimización de parámetros Box-Jenkins para encontrar los parámetros correctos para el modelo ARIMA.

EViews : tiene amplias capacidades ARIMA y SARIMA.
Julia : contiene una implementación ARIMA en el paquete TimeModels ^[12]
Mathematica : incluye la función ARIMAProcess.
MATLAB : la caja de herramientas de econometría incluye modelos ARIMA y regresión con errores ARIMA
NCSS : incluye varios procedimientos de ARIMAajuste y previsión. ^[13]^[14]^[15]
Python : el paquete "statsmodels" incluye modelos para análisis de series de tiempo – análisis de series de tiempo univariadas: AR, ARIMA – modelos vectoriales autorregresivos, VAR y VAR estructural – estadísticas descriptivas y modelos de proceso para análisis de series de tiempo.
R : el paquete de estadísticas estándar de R incluye una función arima , que está documentada en "Modelado ARIMA de series temporales". Además de la parte ⁠ ⁠ ${\text{ARIMA}}(p,d,q)$ , la función también incluye factores estacionales, un término de intersección y variables exógenas ( xreg , llamadas "regresores externos"). El paquete astsa tiene scripts como sarima para estimar modelos estacionales o no estacionales y sarima.sim para simular a partir de estos modelos. La vista de tareas de CRAN sobre series temporales es la referencia con muchos más enlaces. El paquete "forecast" en R puede seleccionar automáticamente un modelo ARIMA para una serie temporal dada con la auto.arima()función [que a menudo puede dar resultados cuestionables][1] y también puede simular modelos ARIMA estacionales y no estacionales con su simulate.Arima()función. ^[16]
Ruby : la gema "statsample-timeseries" se utiliza para el análisis de series de tiempo, incluidos los modelos ARIMA y el filtrado de Kalman.
JavaScript : el paquete "arima" incluye modelos para el análisis y pronóstico de series temporales (ARIMA, SARIMA, SARIMAX, AutoARIMA)
C : el paquete "ctsa" incluye ARIMA, SARIMA, SARIMAX, AutoARIMA y múltiples métodos para el análisis de series de tiempo.
CAJAS DE HERRAMIENTAS SEGURAS: incluye modelado ARIMA y regresión con errores ARIMA.
SAS : incluye procesamiento ARIMA extenso en su sistema de análisis econométrico y de series de tiempo: SAS/ETS.
IBM SPSS : incluye modelado ARIMA en las ediciones Professional y Premium de su paquete Statistics, así como en su paquete Modeler. La función predeterminada Expert Modeler evalúa una gama de configuraciones autorregresivas ( p ), integradas ( d ) y de promedio móvil ( q ) estacionales y no estacionales y siete modelos de suavizado exponencial. Expert Modeler también puede transformar los datos de series temporales de destino en su raíz cuadrada o logaritmo natural. El usuario también tiene la opción de restringir Expert Modeler a los modelos ARIMA o de ingresar manualmente las configuraciones p , d y q no estacionales y estacionales de ARIMA sin Expert Modeler. La detección automática de valores atípicos está disponible para siete tipos de valores atípicos, y los valores atípicos detectados se acomodarán en el modelo de series temporales si se selecciona esta función.
SAP : el paquete APO-FCS ^[17] en SAP ERP de SAP permite la creación y ajuste de modelos ARIMA utilizando la metodología Box–Jenkins.
SQL Server Analysis Services : de Microsoft incluye ARIMA como algoritmo de minería de datos.
Stata incluye modelado ARIMA (utilizando su comando arima) a partir de Stata 9.
StatSim: incluye modelos ARIMA en la aplicación web Forecast.
Teradata Vantage tiene la función ARIMA como parte de su motor de aprendizaje automático.
TOL (lenguaje orientado al tiempo) está diseñado para modelar modelos ARIMA (incluidas las variantes SARIMA, ARIMAX y DSARIMAX) [2].
Scala : la biblioteca spark-timeseries contiene la implementación de ARIMA para Scala, Java y Python. La implementación está diseñada para ejecutarse en Apache Spark .
PostgreSQL /MadLib: Análisis de series de tiempo/ARIMA.
X-12-ARIMA : de la Oficina del Censo de los Estados Unidos

Véase también

Referencias

^ Para obtener más información sobre estacionariedad y diferenciación, consulte https://www.otexts.org/fpp/8/1
^ ab Hyndman, Rob J; Athanasopoulos, George. 8.9 Modelos ARIMA estacionales. oTextos . Consultado el 19 de mayo de 2015 . {{cite book}}: |website=ignorado ( ayuda )
^ Box, George EP (2015). Análisis de series temporales: pronóstico y control . WILEY. ISBN 978-1-118-67502-1.
^ Hamilton, James (1994). Análisis de series temporales . Princeton University Press. ISBN 9780691042893.
^ ab Papoulis, Athanasios (2002). Probabilidad, variables aleatorias y procesos estocásticos . Tata McGraw-Hill Education.
^ ab Triacca, Umberto (19 de febrero de 2021). "El teorema de descomposición de Wold" (PDF) . Archivado (PDF) del original el 27 de marzo de 2016.
^ ab Wang, Shixiong; Li, Chongshou; Lim, Andrew (18 de diciembre de 2019). "¿Por qué ARIMA y SARIMA no son suficientes?". arXiv : 1904.07632 [stat.AP].
^ "Notación para modelos ARIMA". Sistema de pronóstico de series temporales . SAS Institute . Consultado el 19 de mayo de 2015 .
^ ab "Introducción a los modelos ARIMA". people.duke.edu . Consultado el 5 de junio de 2016 .
^ ab Universidad Estatal de Missouri. "Especificación del modelo, análisis de series temporales" (PDF) .
^ Swain, S; et al. (2018). "Desarrollo de un modelo ARIMA para la previsión mensual de precipitaciones en el distrito de Khordha, Odisha, India". Hallazgos recientes en técnicas de computación inteligente . Avances en sistemas inteligentes y computación. Vol. 708. págs. 325–331). doi :10.1007/978-981-10-8636-6_34. ISBN 978-981-10-8635-9. {{cite book}}: |journal=ignorado ( ayuda )
^ TimeModels.jl www.github.com
^ ARIMA en NCSS,
^ ARMA automático en NCSS,
^ Autocorrelaciones y autocorrelaciones parciales en NCSS
^ 8.7 Modelado ARIMA en R | OTexts . Consultado el 12 de mayo de 2016 . {{cite book}}: |website=ignorado ( ayuda )
^ "Modelo de Box Jenkins". SAP . Consultado el 8 de marzo de 2013 .

Lectura adicional

Asteriou, Dimitros; Hall, Stephen G. (2011). "Modelos ARIMA y la metodología Box-Jenkins". Econometría aplicada (segunda edición). Palgrave MacMillan. págs. 265–286. ISBN 978-0-230-27182-1.
Mills, Terence C. (1990). Técnicas de series temporales para economistas . Cambridge University Press. ISBN 978-0-521-34339-8.
Percival, Donald B.; Walden, Andrew T. (1993). Análisis espectral para aplicaciones físicas . Cambridge University Press. ISBN 978-0-521-35532-2.
Shumway RH y Stoffer, DS (2017). Análisis de series temporales y sus aplicaciones: con ejemplos de R. Springer. DOI: 10.1007/978-3-319-52452-8
Modelos ARIMA en R. Conviértase en un experto en el ajuste de modelos ARIMA (promedio móvil integrado autorregresivo) a datos de series de tiempo utilizando R.

Enlaces externos

La Oficina del Censo de los EE. UU. utiliza ARIMA para datos "ajustados estacionalmente" (programas, documentos y artículos aquí)
Notas de clase sobre modelos ARIMA (Robert Nau, Duke University)