En teoría de probabilidad y estadística , los conceptos matemáticos de covarianza y correlación son muy similares. [1] [2] Ambos describen el grado en el que dos variables aleatorias o conjuntos de variables aleatorias tienden a desviarse de sus valores esperados de maneras similares.
Si X e Y son dos variables aleatorias, con medias (valores esperados) μ X y μ Y y desviaciones estándar σ X y σ Y , respectivamente, entonces su covarianza y correlación son las siguientes:
de modo que
donde E es el operador de valor esperado. Cabe destacar que la correlación es adimensional mientras que la covarianza está en unidades obtenidas al multiplicar las unidades de las dos variables.
Si Y siempre toma los mismos valores que X , tenemos la covarianza de una variable consigo misma (es decir ), que se llama varianza y se denota más comúnmente como el cuadrado de la desviación estándar. La correlación de una variable consigo misma es siempre 1 (excepto en el caso degenerado donde las dos varianzas son cero porque X siempre toma el mismo valor único, en cuyo caso la correlación no existe ya que su cálculo implicaría la división por 0 ). De manera más general, la correlación entre dos variables es 1 (o –1) si una de ellas siempre toma un valor que está dado exactamente por una función lineal de la otra con respectivamente una pendiente positiva (o negativa) .
Aunque los valores de las covarianzas y correlaciones teóricas están vinculados de la manera descrita anteriormente, las distribuciones de probabilidad de las estimaciones muestrales de estas cantidades no están vinculadas de ninguna manera sencilla y, por lo general, deben tratarse por separado.
Con cualquier número de variables aleatorias superior a 1, las variables se pueden apilar en un vector aleatorio cuyo elemento i es la variable aleatoria i. Luego, las varianzas y covarianzas se pueden colocar en una matriz de covarianza , en la que el elemento ( i , j ) es la covarianza entre la variable aleatoria i y la j . Del mismo modo, las correlaciones se pueden colocar en una matriz de correlación .
En el caso de una serie temporal estacionaria en sentido amplio, tanto las medias como las varianzas son constantes a lo largo del tiempo (E( X n +m ) = E( X n ) = μ X y var( X n+m ) = var( X n ) y lo mismo para la variable Y ). En este caso la covarianza cruzada y la correlación cruzada son funciones de la diferencia temporal:
Si Y es la misma variable que X , las expresiones anteriores se denominan autocovarianza y autocorrelación :