Correlograma

En el análisis de datos, un correlograma es un gráfico de estadísticas de correlación . Por ejemplo, en el análisis de series de tiempo , una gráfica de las autocorrelaciones de la muestra versus (los desfases de tiempo) es un autocorrelograma . Si se traza la correlación cruzada , el resultado se denomina correlograma cruzado . $r_{h}\,$ $h\,$

El correlograma es una herramienta comúnmente utilizada para comprobar la aleatoriedad en un conjunto de datos . Si son aleatorias, las autocorrelaciones deben ser cercanas a cero para todas y cada una de las separaciones con retardo de tiempo. Si no es aleatoria, entonces una o más de las autocorrelaciones serán significativamente distintas de cero.

Además, los correlogramas se utilizan en la etapa de identificación del modelo para los modelos de series de tiempo de media móvil autorregresivas de Box-Jenkins . Las autocorrelaciones deben ser cercanas a cero para determinar la aleatoriedad; Si el analista no comprueba la aleatoriedad, entonces la validez de muchas de las conclusiones estadísticas se vuelve sospechosa. El correlograma es una excelente manera de comprobar dicha aleatoriedad.

En el análisis multivariado , las matrices de correlación que se muestran como imágenes asignadas en colores también pueden denominarse "correlogramas" o "corrogramas". ^[1]^[2]^[3]

Aplicaciones

El correlograma puede ayudar a proporcionar respuestas a las siguientes preguntas: ^[4]

¿Los datos son aleatorios?
¿Está una observación relacionada con una observación adyacente?
¿Se elimina dos veces una observación relacionada con otra observación? (etc.)
¿La serie temporal observada es ruido blanco ?
¿La serie temporal observada es sinusoidal?
¿Es la serie temporal observada autorregresiva?
¿Cuál es un modelo apropiado para la serie temporal observada?
es el modelo

Y={\text{constante}}+{\text{error}}

¿válido y suficiente?

¿Es válida la fórmula ? $s_{\bar {Y}}=s/{\sqrt {N}}$

Importancia

La aleatoriedad (junto con el modelo fijo, la variación fija y la distribución fija) es uno de los cuatro supuestos que normalmente subyacen a todos los procesos de medición. El supuesto de aleatoriedad es de vital importancia por las siguientes tres razones:

La mayoría de las pruebas estadísticas estándar dependen de la aleatoriedad. La validez de las conclusiones de la prueba está directamente relacionada con la validez del supuesto de aleatoriedad.
Muchas fórmulas estadísticas utilizadas comúnmente dependen del supuesto de aleatoriedad, siendo la fórmula más común la fórmula para determinar el error estándar de la media muestral:

s_{\bar {Y}}=s/{\sqrt {N}}

donde s es la desviación estándar de los datos. Aunque se utiliza mucho, los resultados del uso de esta fórmula no tienen valor a menos que se cumpla el supuesto de aleatoriedad.

Para datos univariados, el modelo predeterminado es

Y={\text{constante}}+{\text{error}}

Si los datos no son aleatorios, este modelo es incorrecto e inválido, y las estimaciones de los parámetros (como la constante) se vuelven absurdas e inválidas.

Estimación de autocorrelaciones.

El coeficiente de autocorrelación en el retraso h viene dado por

r_{h}=c_{h}/c_{0}\,

donde c _h es la función de autocovarianza

c_{h}={\frac {1}{N}}\sum _{t=1}^{Nh}\left(Y_{t}-{\bar {Y}}\right)\left (Y_{t+h}-{\bar {Y}}\right)

y c ₀ es la función de varianza

c_{0}={\frac {1}{N}}\sum _{t=1}^{N}\left(Y_{t}-{\bar {Y}}\right)^{ 2}

El valor resultante de r _h oscilará entre −1 y +1.

Estimación alternativa

Algunas fuentes pueden utilizar la siguiente fórmula para la función de autocovarianza:

c_{h}={\frac {1}{N-h}}\sum _{t=1}^{N-h}\left(Y_{t}-{\bar {Y}}\right)\left(Y_{t+h}-{\bar {Y}}\right)

Aunque esta definición tiene menos sesgo , la formulación (1/ N ) tiene algunas propiedades estadísticas deseables y es la forma más comúnmente utilizada en la literatura estadística. Consulte las páginas 20 y 49–50 en Chatfield para obtener más detalles.

A diferencia de la definición anterior, esta definición nos permite calcular de una manera un poco más intuitiva. Considere la muestra , ¿ dónde ? Entonces, deja $c_{h}$ $Y_{1},\dots ,Y_{N}$ $Y_{i}\in \mathbb {R} ^{n}$ $i=1,\dots ,N$

X={\begin{bmatrix}Y_{1}-{\bar {Y}}&\cdots &Y_{N}-{\bar {Y}}\end{bmatrix}}\in \mathbb {R} ^{n\times N}

Luego calculamos la matriz de Gram . Finalmente, se calcula como la media muestral de la enésima diagonal de . Por ejemplo, la enésima diagonal (la diagonal principal) de tiene elementos y su media muestral corresponde a . La st diagonal (a la derecha de la diagonal principal) de tiene elementos, y su media muestral corresponde a , y así sucesivamente. $Q=X^{\top }X$ $c_{h}$ $h$ $Q$ $0$ $Q$ $N$ $c_{0}$ $1$ $Q$ $N-1$ $c_{1}$

Inferencia estadística con correlogramas.

En el mismo gráfico se pueden dibujar límites superior e inferior para la autocorrelación con nivel de significancia : $\alpha \,$

B=\pm z_{1-\alpha /2}SE(r_{h})\,

con la autocorrelación estimada en el rezago .

r_{h}\,

h\,

Si la autocorrelación es mayor (inferior) que este límite superior (inferior), la hipótesis nula de que no hay autocorrelación en un rezago determinado y más allá se rechaza a un nivel de significancia de . Esta prueba es aproximada y supone que la serie temporal es gaussiana . $\alpha \,$

En lo anterior, z _{1− α /2} es el cuantil de la distribución normal ; SE es el error estándar, que puede calcularse mediante la fórmula de Bartlett para procesos MA( ℓ ):

SE(r_{1})={\frac {1}{\sqrt {N}}}

SE(r_{h})={\sqrt {\frac {1+2\sum _{i=1}^{h-1}r_{i}^{2}}{N}}}

para

h>1.\,

En el ejemplo trazado, podemos rechazar la hipótesis nula de que no hay autocorrelación entre puntos temporales que están separados por rezagos de hasta 4. Para la mayoría de los períodos más largos no se puede rechazar la hipótesis nula de que no hay autocorrelación.

Tenga en cuenta que existen dos fórmulas distintas para generar las bandas de confianza:

1. Si se utiliza el correlograma para probar la aleatoriedad (es decir, no hay dependencia del tiempo en los datos), se recomienda la siguiente fórmula:

\pm {\frac {z_{1-\alpha /2}}{\sqrt {N}}}

donde N es el tamaño de la muestra , z es la función cuantil de la distribución normal estándar y α es el nivel de significancia . En este caso, las bandas de confianza tienen un ancho fijo que depende del tamaño de la muestra.

2. Los correlogramas también se utilizan en la etapa de identificación del modelo para ajustar modelos ARIMA . En este caso, se supone un modelo de media móvil para los datos y se deben generar las siguientes bandas de confianza:

\pm z_{1-\alpha /2}{\sqrt {{\frac {1}{N}}\left(1+2\sum _{i=1}^{k}r_{i}^{2}\right)}}

donde k es el retraso. En este caso, las bandas de confianza aumentan a medida que aumenta el rezago.

Software

Los correlogramas están disponibles en la mayoría de las bibliotecas estadísticas de uso general.

Correlogramas:

pandas pitón : pandas.plotting.autocorrelation_plot^[5]
R : funciones acfypacf

Corrgramas:

pitón nacido en el mar :,heatmappairplot
R : corrgram^[2]^[3]

Técnicas relacionadas

Referencias

^ Amistoso, Michael (19 de agosto de 2002). "Corrgramas: visualizaciones exploratorias para matrices de correlación" (PDF) . El estadístico estadounidense . 56 (4). Taylor y Francisco : 316–324. doi : 10.1198/000313002533 . Consultado el 19 de enero de 2014 .
^ ab "CRAN - Corrgrama del paquete". cran.r-project.org . 29 de agosto de 2013 . Consultado el 19 de enero de 2014 .
^ ab "Quick-R: correlogramas". statmethods.net . Consultado el 19 de enero de 2014 .
^ "1.3.3.1. Gráfico de autocorrelación". www.itl.nist.gov . Consultado el 20 de agosto de 2018 .
^ "Visualización § Gráfico de autocorrelación".

Otras lecturas

Hanke, John E.; Reitsch, Arthur G.; Wichern, Dean W. Previsión empresarial (7ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.
Caja, GEP; Jenkins, G. (1976). Análisis de series temporales: previsión y control . Holden-Day.
Chatfield, C. (1989). El análisis de series temporales: una introducción (Cuarta ed.). Nueva York, Nueva York: Chapman & Hall.

enlaces externos

Gráfico de autocorrelación

Este artículo incorpora material de dominio público del Instituto Nacional de Estándares y Tecnología.