Matriz de covarianza

Puntos de muestra de una distribución gaussiana bivariada con una desviación estándar de 3 aproximadamente en la dirección inferior izquierda-superior derecha y de 1 en la dirección ortogonal. *Debido a* que los componentes *xey* covarían, las varianzas de y no describen completamente la distribución. Se necesita una matriz de covarianza; las direcciones de las flechas corresponden a los vectores propios de esta matriz de covarianza y sus longitudes a las raíces cuadradas de los valores propios . $x$ $y$ $2\veces 2$

En teoría de probabilidad y estadística , una matriz de covarianza (también conocida como matriz de autocovarianza , matriz de dispersión , matriz de varianza o matriz de varianza-covarianza ) es una matriz cuadrada que proporciona la covarianza entre cada par de elementos de un vector aleatorio determinado .

Intuitivamente, la matriz de covarianza generaliza la noción de varianza a múltiples dimensiones. Como ejemplo, la variación en una colección de puntos aleatorios en un espacio bidimensional no puede caracterizarse completamente por un solo número, ni las variaciones en las direcciones y contendrían toda la información necesaria; Sería necesaria una matriz para caracterizar completamente la variación bidimensional. $x$ $y$ $2\veces 2$

Cualquier matriz de covarianza es simétrica y semidefinida positiva y su diagonal principal contiene varianzas (es decir, la covarianza de cada elemento consigo mismo).

La matriz de covarianza de un vector aleatorio normalmente se denota por , o . $\mathbf {X}$ $\operatorname {K} _{\mathbf {X} \mathbf {X} }$ $\Sigma$ $S$

Definición

A lo largo de este artículo, las letras en negrita y sin subíndice se utilizan para referirse a vectores aleatorios, y las con subíndice romano y se utilizan para referirse a variables aleatorias escalares. $\mathbf {X}$ $\mathbf {Y}$ $X_{i}$ $Y_{i}$

Si las entradas en el vector de columna

\mathbf {X} =(X_{1},X_{2},...,X_{n})^{\mathrm {T} }

son variables aleatorias , cada una con varianza finita y valor esperado , entonces la matriz de covarianza es la matriz cuya entrada es la covarianza ^[1]^{: p.}¹⁷⁷ $\operatorname {K} _{\mathbf {X} \mathbf {X} }$ $(i,j)$

\operatorname {K} _{X_{i}X_{j}}=\operatorname {cov} [X_{i},X_{j}]=\operatorname {E} [(X_{i}-\ nombre del operador {E} [X_ {i}])(X_ {j}-\ nombre del operador {E} [X_ {j}])]

donde el operador denota el valor esperado (media) de su argumento. $\operatorname {E}$

Nomenclaturas y notaciones en conflicto

Las nomenclaturas difieren. Algunos estadísticos, siguiendo al probabilista William Feller en su libro de dos volúmenes Introducción a la teoría de la probabilidad y sus aplicaciones , ^[2] llaman a la matriz la varianza del vector aleatorio , porque es la generalización natural a dimensiones superiores del sistema unidimensional. diferencia. Otros la llaman matriz de covarianzas , porque es la matriz de covarianzas entre los componentes escalares del vector . $\operatorname {K} _{\mathbf {X} \mathbf {X} }$ $\mathbf {X}$ $\mathbf {X}$

\operatorname {var} (\mathbf {X} )=\operatorname {cov} (\mathbf {X} ,\mathbf {X} )=\operatorname {E} \left[(\mathbf {X} - \operatorname {E} [\mathbf {X} ])(\mathbf {X} -\operatorname {E} [\mathbf {X} ])^{\rm {T}}\right].

Ambas formas son bastante estándar y no hay ambigüedad entre ellas. La matriz también suele denominarse matriz de varianza-covarianza , ya que los términos de la diagonal son en realidad varianzas. $\operatorname {K} _{\mathbf {X} \mathbf {X} }$

En comparación, la notación para la matriz de covarianza cruzada entre dos vectores es

\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )=\operatorname {K} _{\mathbf {X} \mathbf {Y} }=\operatorname {E} \left[( \mathbf {X} -\operatorname {E} [\mathbf {X} ])(\mathbf {Y} -\operatorname {E} [\mathbf {Y} ])^{\rm {T}}\right] .

Propiedades

Relación con la matriz de autocorrelación

La matriz de autocovarianza está relacionada con la matriz de autocorrelación por $\operatorname {K} _{\mathbf {X} \mathbf {X} }$ $\operatorname {R} _{\mathbf {X} \mathbf {X} }$

\operatorname {K} _{\mathbf {X} \mathbf {X} }=\operatorname {E} [(\mathbf {X} -\operatorname {E} [\mathbf {X} ])(\mathbf {X} -\operatorname {E} [\mathbf {X} ])^{\rm {T}}]=\operatorname {R} _{\mathbf {X} \mathbf {X} }-\operatorname {E} [\mathbf {X} ]\operatorname {E} [\mathbf {X} ]^{\rm {T}}

donde la matriz de autocorrelación se define como . $\operatorname {R} _{\mathbf {X} \mathbf {X} }=\operatorname {E} [\mathbf {X} \mathbf {X} ^{\rm {T}}]$

Relación con la matriz de correlación

Una entidad estrechamente relacionada con la matriz de covarianza es la matriz de coeficientes de correlación momento-producto de Pearson entre cada una de las variables aleatorias en el vector aleatorio , que se puede escribir como $\mathbf {X}$

\operatorname {corr} (\mathbf {X} )={\big (}\operatorname {diag} (\operatorname {K} _{\mathbf {X} \mathbf {X} }){\big )}^{-{\frac {1}{2}}}\,\operatorname {K} _{\mathbf {X} \mathbf {X} }\,{\big (}\operatorname {diag} (\operatorname {K} _{\mathbf {X} \mathbf {X} }){\big )}^{-{\frac {1}{2}}},

donde es la matriz de los elementos diagonales de (es decir, una matriz diagonal de las varianzas de for ). $\operatorname {diag} (\operatorname {K} _{\mathbf {X} \mathbf {X} })$ $\operatorname {K} _{\mathbf {X} \mathbf {X} }$ $X_{i}$ $i=1,\dots ,n$

De manera equivalente, la matriz de correlación puede verse como la matriz de covarianza de las variables aleatorias estandarizadas para . $X_{i}/\sigma (X_{i})$ $i=1,\dots ,n$

\operatorname {corr} (\mathbf {X} )={\begin{bmatrix}1&{\frac {\operatorname {E} [(X_{1}-\mu _{1})(X_{2}-\mu _{2})]}{\sigma (X_{1})\sigma (X_{2})}}&\cdots &{\frac {\operatorname {E} [(X_{1}-\mu _{1})(X_{n}-\mu _{n})]}{\sigma (X_{1})\sigma (X_{n})}}\\\\{\frac {\operatorname {E} [(X_{2}-\mu _{2})(X_{1}-\mu _{1})]}{\sigma (X_{2})\sigma (X_{1})}}&1&\cdots &{\frac {\operatorname {E} [(X_{2}-\mu _{2})(X_{n}-\mu _{n})]}{\sigma (X_{2})\sigma (X_{n})}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\operatorname {E} [(X_{n}-\mu _{n})(X_{1}-\mu _{1})]}{\sigma (X_{n})\sigma (X_{1})}}&{\frac {\operatorname {E} [(X_{n}-\mu _{n})(X_{2}-\mu _{2})]}{\sigma (X_{n})\sigma (X_{2})}}&\cdots &1\end{bmatrix}}.

Cada elemento en la diagonal principal de una matriz de correlación es la correlación de una variable aleatoria consigo misma, que siempre es igual a 1. Cada elemento fuera de la diagonal está entre −1 y +1 inclusive.

Inversa de la matriz de covarianza

La inversa de esta matriz, si existe, es la matriz de covarianza inversa (o matriz de concentración inversa), también conocida como matriz de precisión (o matriz de concentración ). ^[3] $\operatorname {K} _{\mathbf {X} \mathbf {X} }^{-1}$

Así como la matriz de covarianza se puede escribir como el cambio de escala de una matriz de correlación por las varianzas marginales:

$\operatorname {cov} (\mathbf {X} )={\begin{bmatrix}\sigma _{x_{1}}&&&0\\&\sigma _{x_{2}}\\&&\ddots \\0&&&\sigma _{x_{n}}\end{bmatrix}}{\begin{bmatrix}1&\rho _{x_{1},x_{2}}&\cdots &\rho _{x_{1},x_{n}}\\\rho _{x_{2},x_{1}}&1&\cdots &\rho _{x_{2},x_{n}}\\\vdots &\vdots &\ddots &\vdots \\\rho _{x_{n},x_{1}}&\rho _{x_{n},x_{2}}&\cdots &1\\\end{bmatrix}}{\begin{bmatrix}\sigma _{x_{1}}&&&0\\&\sigma _{x_{2}}\\&&\ddots \\0&&&\sigma _{x_{n}}\end{bmatrix}}$

Entonces, usando la idea de correlación parcial y varianza parcial, la matriz de covarianza inversa se puede expresar de manera análoga:

$\operatorname {cov} (\mathbf {X} )^{-1}={\begin{bmatrix}{\frac {1}{\sigma _{x_{1}|x_{2}...}}}&&&0\\&{\frac {1}{\sigma _{x_{2}|x_{1},x_{3}...}}}\\&&\ddots \\0&&&{\frac {1}{\sigma _{x_{n}|x_{1}...x_{n-1}}}}\end{bmatrix}}{\begin{bmatrix}1&-\rho _{x_{1},x_{2}\mid x_{3}...}&\cdots &-\rho _{x_{1},x_{n}\mid x_{2}...x_{n-1}}\\-\rho _{x_{2},x_{1}\mid x_{3}...}&1&\cdots &-\rho _{x_{2},x_{n}\mid x_{1},x_{3}...x_{n-1}}\\\vdots &\vdots &\ddots &\vdots \\-\rho _{x_{n},x_{1}\mid x_{2}...x_{n-1}}&-\rho _{x_{n},x_{2}\mid x_{1},x_{3}...x_{n-1}}&\cdots &1\\\end{bmatrix}}{\begin{bmatrix}{\frac {1}{\sigma _{x_{1}|x_{2}...}}}&&&0\\&{\frac {1}{\sigma _{x_{2}|x_{1},x_{3}...}}}\\&&\ddots \\0&&&{\frac {1}{\sigma _{x_{n}|x_{1}...x_{n-1}}}}\end{bmatrix}}$

Esta dualidad motiva una serie de otras dualidades entre marginación y condicionamiento de variables aleatorias gaussianas.

Propiedades básicas

Para y , donde es una variable aleatoria de dimensiones, se aplican las siguientes propiedades básicas: ^[4] $\operatorname {K} _{\mathbf {X} \mathbf {X} }=\operatorname {var} (\mathbf {X} )=\operatorname {E} \left[\left(\mathbf {X} -\operatorname {E} [\mathbf {X} ]\right)\left(\mathbf {X} -\operatorname {E} [\mathbf {X} ]\right)^{\rm {T}}\right]$ $\mathbf {\mu _{X}} =\operatorname {E} [{\textbf {X}}]$ $\mathbf {X} =(X_{1},\ldots ,X_{n})^{\rm {T}}$ $n$

$\operatorname {K} _{\mathbf {X} \mathbf {X} }=\operatorname {E} (\mathbf {XX^{\rm {T}}} )-\mathbf {\mu _{X}} \mathbf {\mu _{X}} ^{\rm {T}}$
$\operatorname {K} _{\mathbf {X} \mathbf {X} }\,$ es positivo-semidefinido , es decir $\mathbf {a} ^{T}\operatorname {K} _{\mathbf {X} \mathbf {X} }\mathbf {a} \geq 0\quad {\text{for all }}\mathbf {a} \in \mathbb {R} ^{n}$
$\operatorname {K} _{\mathbf {X} \mathbf {X} }\,$ es simétrico , es decir $\operatorname {K} _{\mathbf {X} \mathbf {X} }^{\rm {T}}=\operatorname {K} _{\mathbf {X} \mathbf {X} }$
Para cualquier matriz constante (es decir, no aleatoria) y vector constante , se tiene $m\times n$ $\mathbf {A}$ $m\times 1$ $\mathbf {a}$ $\operatorname {var} (\mathbf {AX} +\mathbf {a} )=\mathbf {A} \,\operatorname {var} (\mathbf {X} )\,\mathbf {A} ^{\rm {T}}$
Si es otro vector aleatorio con la misma dimensión que , entonces ¿dónde está la matriz de covarianza cruzada de y ? $\mathbf {Y}$ $\mathbf {X}$ $\operatorname {var} (\mathbf {X} +\mathbf {Y} )=\operatorname {var} (\mathbf {X} )+\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )+\operatorname {cov} (\mathbf {Y} ,\mathbf {X} )+\operatorname {var} (\mathbf {Y} )$ $\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )$ $\mathbf {X}$ $\mathbf {Y}$

matrices de bloques

La matriz de media conjunta y covarianza conjunta de y se puede escribir en forma de bloque $\mathbf {\mu }$ $\mathbf {\Sigma }$ $\mathbf {X}$ $\mathbf {Y}$

\mathbf {\mu } ={\begin{bmatrix}\mathbf {\mu _{X}} \\\mathbf {\mu _{Y}} \end{bmatrix}},\qquad \mathbf {\Sigma } ={\begin{bmatrix}\operatorname {K} _{\mathbf {XX} }&\operatorname {K} _{\mathbf {XY} }\\\operatorname {K} _{\mathbf {YX} }&\operatorname {K} _{\mathbf {YY} }\end{bmatrix}}

dónde y . $\operatorname {K} _{\mathbf {XX} }=\operatorname {var} (\mathbf {X} )$ $\operatorname {K} _{\mathbf {YY} }=\operatorname {var} (\mathbf {Y} )$ $\operatorname {K} _{\mathbf {XY} }=\operatorname {K} _{\mathbf {YX} }^{\rm {T}}=\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )$

$\operatorname {K} _{\mathbf {XX} }$ y pueden identificarse como las matrices de varianza de las distribuciones marginales para y respectivamente. $\operatorname {K} _{\mathbf {YY} }$ $\mathbf {X}$ $\mathbf {Y}$

Si y tienen una distribución normal conjunta , $\mathbf {X}$ $\mathbf {Y}$

\mathbf {X} ,\mathbf {Y} \sim \ {\mathcal {N}}(\mathbf {\mu } ,\operatorname {\mathbf {\Sigma } } ),

entonces la distribución condicional dada está dada por $\mathbf {Y}$ $\mathbf {X}$

\mathbf {Y} \mid \mathbf {X} \sim \ {\mathcal {N}}(\mathbf {\mu _{Y|X}} ,\operatorname {K} _{\mathbf {Y|X} }),

^[5]

definido por media condicional

\mathbf {\mu _{Y|X}} =\mathbf {\mu _{Y}} +\operatorname {K} _{\mathbf {YX} }\operatorname {K} _{\mathbf {XX} }^{-1}\left(\mathbf {X} -\mathbf {\mu _{X}} \right)

y varianza condicional

\operatorname {K} _{\mathbf {Y|X} }=\operatorname {K} _{\mathbf {YY} }-\operatorname {K} _{\mathbf {YX} }\operatorname {K} _{\mathbf {XX} }^{-1}\operatorname {K} _{\mathbf {XY} }.

La matriz se conoce como matriz de coeficientes de regresión , mientras que en álgebra lineal es el complemento de Schur de in . $\operatorname {K} _{\mathbf {YX} }\operatorname {K} _{\mathbf {XX} }^{-1}$ $\operatorname {K} _{\mathbf {Y|X} }$ $\operatorname {K} _{\mathbf {XX} }$ $\mathbf {\Sigma }$

La matriz de coeficientes de regresión a menudo se puede dar en forma transpuesta, adecuada para multiplicar posteriormente un vector fila de variables explicativas en lugar de multiplicar previamente un vector columna . De esta forma corresponden a los coeficientes obtenidos al invertir la matriz de las ecuaciones normales de mínimos cuadrados ordinarios (MCO). $\operatorname {K} _{\mathbf {XX} }^{-1}\operatorname {K} _{\mathbf {XY} }$ $\mathbf {X} ^{\rm {T}}$ $\mathbf {X}$

Matriz de covarianza parcial

Una matriz de covarianza con todos los elementos distintos de cero nos dice que todas las variables aleatorias individuales están interrelacionadas. Esto significa que las variables no sólo están directamente correlacionadas, sino también indirectamente a través de otras variables. A menudo, estas correlaciones indirectas y de modo común son triviales y poco interesantes. Se pueden suprimir calculando la matriz de covarianza parcial, es decir, la parte de la matriz de covarianza que muestra sólo la parte interesante de las correlaciones.

Si dos vectores de variables aleatorias están correlacionados a través de otro vector , estas últimas correlaciones se suprimen en una matriz ^[6] $\mathbf {X}$ $\mathbf {Y}$ $\mathbf {I}$

\operatorname {K} _{\mathbf {XY\mid I} }=\operatorname {pcov} (\mathbf {X} ,\mathbf {Y} \mid \mathbf {I} )=\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )-\operatorname {cov} (\mathbf {X} ,\mathbf {I} )\operatorname {cov} (\mathbf {I} ,\mathbf {I} )^{-1}\operatorname {cov} (\mathbf {I} ,\mathbf {Y} ).

La matriz de covarianza parcial es efectivamente la matriz de covarianza simple , como si las variables aleatorias no interesantes se mantuvieran constantes. $\operatorname {K} _{\mathbf {XY\mid I} }$ $\operatorname {K} _{\mathbf {XY} }$ $\mathbf {I}$

Matriz de covarianza como parámetro de una distribución.

Si un vector de columna de variables aleatorias posiblemente correlacionadas tiene una distribución normal conjunta o, más generalmente, una distribución elíptica , entonces su función de densidad de probabilidad se puede expresar en términos de la matriz de covarianza de la siguiente manera ^[6] $\mathbf {X}$ $n$ $\operatorname {f} (\mathbf {X} )$ $\mathbf {\Sigma }$

\operatorname {f} (\mathbf {X} )=(2\pi )^{-n/2}|\mathbf {\Sigma } |^{-1/2}\exp \left(-{\tfrac {1}{2}}\mathbf {(X-\mu )^{\rm {T}}\Sigma ^{-1}(X-\mu )} \right),

donde y es el determinante de . $\mathbf {\mu =\operatorname {E} [X]}$ $|\mathbf {\Sigma } |$ $\mathbf {\Sigma }$

Matriz de covarianza como operador lineal

Aplicada a un vector, la matriz de covarianza asigna una combinación lineal c de las variables aleatorias X a un vector de covarianzas con esas variables: . Tratada como una forma bilineal , produce la covarianza entre las dos combinaciones lineales: . La varianza de una combinación lineal es entonces su covarianza consigo misma. $\mathbf {c} ^{\rm {T}}\Sigma =\operatorname {cov} (\mathbf {c} ^{\rm {T}}\mathbf {X} ,\mathbf {X} )$ $\mathbf {d} ^{\rm {T}}\Sigma \mathbf {c} =\operatorname {cov} (\mathbf {d} ^{\rm {T}}\mathbf {X} ,\mathbf {c} ^{\rm {T}}\mathbf {X} )$ $\mathbf {c} ^{\rm {T}}\Sigma \mathbf {c}$

De manera similar, la matriz de covarianza (pseudo)inversa proporciona un producto interno , que induce la distancia de Mahalanobis , una medida de la "improbabilidad" de c . ^[^{cita necesaria}^] $\langle c-\mu |\Sigma ^{+}|c-\mu \rangle$

¿Qué matrices son matrices de covarianza?

De la identidad anterior, sea un vector de valor real, entonces $\mathbf {b}$ $(p\times 1)$

\operatorname {var} (\mathbf {b} ^{\rm {T}}\mathbf {X} )=\mathbf {b} ^{\rm {T}}\operatorname {var} (\mathbf {X} )\mathbf {b} ,\,

que siempre debe ser no negativa, ya que es la varianza de una variable aleatoria de valor real, por lo que una matriz de covarianza es siempre una matriz semidefinida positiva .

El argumento anterior se puede ampliar de la siguiente manera:

{\begin{aligned}&w^{\rm {T}}\operatorname {E} \left[(\mathbf {X} -\operatorname {E} [\mathbf {X} ])(\mathbf {X} -\operatorname {E} [\mathbf {X} ])^{\rm {T}}\right]w=\operatorname {E} \left[w^{\rm {T}}(\mathbf {X} -\operatorname {E} [\mathbf {X} ])(\mathbf {X} -\operatorname {E} [\mathbf {X} ])^{\rm {T}}w\right]\\&=\operatorname {E} {\big [}{\big (}w^{\rm {T}}(\mathbf {X} -\operatorname {E} [\mathbf {X} ]){\big )}^{2}{\big ]}\geq 0,\end{aligned}}

w^{\rm {T}}(\mathbf {X} -\operatorname {E} [\mathbf {X} ])

Por el contrario, toda matriz semidefinida positiva simétrica es una matriz de covarianza. Para ver esto, supongamos que es una matriz semidefinida positiva simétrica. Del caso de dimensión finita del teorema espectral , se deduce que tiene una raíz cuadrada simétrica no negativa , que puede denotarse por M ^1/2 . Sea cualquier variable aleatoria columna con valor vectorial cuya matriz de covarianza sea la matriz identidad. Entonces $M$ $p\times p$ $M$ $\mathbf {X}$ $p\times 1$ $p\times p$

\operatorname {var} (\mathbf {M} ^{1/2}\mathbf {X} )=\mathbf {M} ^{1/2}\,\operatorname {var} (\mathbf {X} )\,\mathbf {M} ^{1/2}=\mathbf {M} .

Vectores aleatorios complejos

La varianza de una variable aleatoria compleja con valor escalar con valor esperado se define convencionalmente mediante conjugación compleja : $\mu$

\operatorname {var} (Z)=\operatorname {E} \left[(Z-\mu _{Z}){\overline {(Z-\mu _{Z})}}\right],

donde se denota el conjugado complejo de un número complejo ; por tanto, la varianza de una variable aleatoria compleja es un número real. $z$ ${\overline {z}}$

Si es un vector columna de variables aleatorias de valores complejos, entonces la transpuesta conjugada se forma transponiendo y conjugando. En la siguiente expresión, el producto de un vector con su transpuesta conjugada da como resultado una matriz cuadrada llamada matriz de covarianza , como su expectativa: ^[7]^{: p.}²⁹³ $\mathbf {Z} =(Z_{1},\ldots ,Z_{n})^{\mathrm {T} }$ $\mathbf {Z} ^{\mathrm {H} }$

\operatorname {K} _{\mathbf {Z} \mathbf {Z} }=\operatorname {cov} [\mathbf {Z} ,\mathbf {Z} ]=\operatorname {E} \left[(\mathbf {Z} -\mathbf {\mu _{Z}} )(\mathbf {Z} -\mathbf {\mu _{Z}} )^{\mathrm {H} }\right]

La matriz así obtenida será hermitiana positiva-semidefinida , ^[8] con números reales en la diagonal principal y números complejos fuera de la diagonal.

Propiedades

La matriz de covarianza es una matriz hermitiana , es decir . ^[1]^{: pág.}¹⁷⁹ $\operatorname {K} _{\mathbf {Z} \mathbf {Z} }^{\mathrm {H} }=\operatorname {K} _{\mathbf {Z} \mathbf {Z} }$
Los elementos diagonales de la matriz de covarianza son reales. ^[1]^{: pág. 179}

Matriz de pseudocovarianza

Para vectores aleatorios complejos, otro tipo de segundo momento central, la matriz de pseudocovarianza (también llamada matriz de relaciones ) se define de la siguiente manera:

\operatorname {J} _{\mathbf {Z} \mathbf {Z} }=\operatorname {cov} [\mathbf {Z} ,{\overline {\mathbf {Z} }}]=\operatorname {E} \left[(\mathbf {Z} -\mathbf {\mu _{Z}} )(\mathbf {Z} -\mathbf {\mu _{Z}} )^{\mathrm {T} }\right]

A diferencia de la matriz de covarianza definida anteriormente, la transposición hermitiana se reemplaza por transposición en la definición. Sus elementos diagonales pueden tener valores complejos; es una matriz simétrica compleja .

Estimacion

Si y son matrices de datos centradas de dimensión y respectivamente, es decir, con n columnas de observaciones de p y q filas de variables, de las cuales se han restado las medias de las filas, entonces, si las medias de las filas se estimaron a partir de los datos, las matrices de covarianza de la muestra y se puede definir como $\mathbf {M} _{\mathbf {X} }$ $\mathbf {M} _{\mathbf {Y} }$ $p\times n$ $q\times n$ $\mathbf {Q} _{\mathbf {XX} }$ $\mathbf {Q} _{\mathbf {XY} }$

\mathbf {Q} _{\mathbf {XX} }={\frac {1}{n-1}}\mathbf {M} _{\mathbf {X} }\mathbf {M} _{\mathbf {X} }^{\rm {T}},\qquad \mathbf {Q} _{\mathbf {XY} }={\frac {1}{n-1}}\mathbf {M} _{\mathbf {X} }\mathbf {M} _{\mathbf {Y} }^{\rm {T}}

o, si las medias de las filas fueran conocidas a priori,

\mathbf {Q} _{\mathbf {XX} }={\frac {1}{n}}\mathbf {M} _{\mathbf {X} }\mathbf {M} _{\mathbf {X} }^{\rm {T}},\qquad \mathbf {Q} _{\mathbf {XY} }={\frac {1}{n}}\mathbf {M} _{\mathbf {X} }\mathbf {M} _{\mathbf {Y} }^{\rm {T}}.

Estas matrices de covarianza de muestra empírica son los estimadores más sencillos y más utilizados para las matrices de covarianza, pero también existen otros estimadores, incluidos los estimadores regularizados o de contracción, que pueden tener mejores propiedades.

Aplicaciones

La matriz de covarianza es una herramienta útil en muchas áreas diferentes. De ella se puede derivar una matriz de transformación , llamada transformación de blanqueamiento , que permite descorrelacionar completamente los datos ^{[ cita necesaria ]} o, desde un punto de vista diferente, encontrar una base óptima para representar los datos de forma compacta ^{[ cita necesario ]} (consulte el cociente de Rayleigh para obtener una prueba formal y propiedades adicionales de las matrices de covarianza). Esto se denomina análisis de componentes principales (PCA) y transformada de Karhunen-Loève (transformada KL).

La matriz de covarianza juega un papel clave en la economía financiera , especialmente en la teoría de carteras y su teorema de separación de fondos mutuos y en el modelo de fijación de precios de activos de capital . La matriz de covarianzas entre los rendimientos de varios activos se utiliza para determinar, bajo ciertos supuestos, las cantidades relativas de diferentes activos que los inversores deberían (en un análisis normativo ) o se prevé que (en un análisis positivo ) elegirán mantener en un contexto de diversificación .

Uso en optimización

La estrategia de evolución , una familia particular de heurísticas de búsqueda aleatoria, se basa fundamentalmente en una matriz de covarianza en su mecanismo. El operador de mutación característico extrae el paso de actualización de una distribución normal multivariada utilizando una matriz de covarianza en evolución. Existe una prueba formal de que la matriz de covarianza de la estrategia de evolución se adapta a la inversa de la matriz de Hesse del panorama de búsqueda, hasta un factor escalar y pequeñas fluctuaciones aleatorias (probado para una estrategia monoparental y un modelo estático, como el el tamaño de la población aumenta, basándose en la aproximación cuadrática). ^[9] Intuitivamente, este resultado está respaldado por el razonamiento de que la distribución de covarianza óptima puede ofrecer pasos de mutación cuyos contornos de probabilidad de equidensidad coinciden con los conjuntos de niveles del paisaje y, por lo tanto, maximizan la tasa de progreso.

Mapeo de covarianza

En el mapeo de covarianza, los valores de la matriz o se trazan como un mapa bidimensional. Cuando los vectores y son funciones aleatorias discretas , el mapa muestra relaciones estadísticas entre diferentes regiones de las funciones aleatorias. Las regiones estadísticamente independientes de las funciones aparecen en el mapa como llanuras de nivel cero, mientras que las correlaciones positivas o negativas aparecen, respectivamente, como colinas o valles. $\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )$ $\operatorname {pcov} (\mathbf {X} ,\mathbf {Y} \mid \mathbf {I} )$ $\mathbf {X}$ $\mathbf {Y}$

En la práctica, los vectores de columna y se adquieren experimentalmente como filas de muestras, por ejemplo $\mathbf {X} ,\mathbf {Y}$ $\mathbf {I}$ $n$

[\mathbf {X} _{1},\mathbf {X} _{2},...\mathbf {X} _{n}]={\begin{bmatrix}X_{1}(t_{1})&X_{2}(t_{1})&\cdots &X_{n}(t_{1})\\\\X_{1}(t_{2})&X_{2}(t_{2})&\cdots &X_{n}(t_{2})\\\\\vdots &\vdots &\ddots &\vdots \\\\X_{1}(t_{m})&X_{2}(t_{m})&\cdots &X_{n}(t_{m})\end{bmatrix}},

¿Dónde está el i -ésimo valor discreto en la muestra j de la función aleatoria ? Los valores esperados necesarios en la fórmula de covarianza se estiman utilizando la media muestral , por ejemplo $X_{j}(t_{i})$ $X(t)$

\langle \mathbf {X} \rangle ={\frac {1}{n}}\sum _{j=1}^{n}\mathbf {X} _{j}

y la matriz de covarianza se estima mediante la matriz de covarianza de muestra

\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )\approx \langle \mathbf {XY^{\rm {T}}} \rangle -\langle \mathbf {X} \rangle \langle \mathbf {Y} ^{\rm {T}}\rangle ,

donde los corchetes angulares indican el promedio de la muestra como antes, excepto que se debe realizar la corrección de Bessel para evitar sesgos . Usando esta estimación, la matriz de covarianza parcial se puede calcular como

\operatorname {pcov} (\mathbf {X} ,\mathbf {Y} \mid \mathbf {I} )=\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )-\operatorname {cov} (\mathbf {X} ,\mathbf {I} )\left(\operatorname {cov} (\mathbf {I} ,\mathbf {I} )\backslash \operatorname {cov} (\mathbf {I} ,\mathbf {Y} )\right),

donde la barra invertida denota el operador de división de matriz izquierda , que evita el requisito de invertir una matriz y está disponible en algunos paquetes computacionales como Matlab . ^[10]

La figura 1 ilustra cómo se construye un mapa de covarianza parcial en un ejemplo de un experimento realizado en el láser de electrones libres FLASH en Hamburgo. ^[11] La función aleatoria es el espectro de tiempo de vuelo de los iones de una explosión de Coulomb de moléculas de nitrógeno ionizadas múltiples veces por un pulso láser. Dado que en cada pulso láser sólo se ionizan unos pocos cientos de moléculas, los espectros de un solo disparo fluctúan mucho. Sin embargo, al recolectar típicamente dichos espectros y promediarlos se produce un espectro suave , que se muestra en rojo en la parte inferior de la Fig. 1. El espectro promedio revela varios iones de nitrógeno en forma de picos ampliados por su energía cinética, pero para Para encontrar las correlaciones entre las etapas de ionización y los momentos de los iones es necesario calcular un mapa de covarianza. $X(t)$ $m=10^{4}$ $\mathbf {X} _{j}(t)$ $j$ $\langle \mathbf {X} (t)\rangle$ $\langle \mathbf {X} \rangle$

In the example of Fig. 1 spectra $\mathbf {X} _{j}(t)$ and $\mathbf {Y} _{j}(t)$ are the same, except that the range of the time-of-flight $t$ differs. Panel a shows $\langle \mathbf {XY^{\rm {T}}} \rangle$ , panel b shows $\langle \mathbf {X} \rangle \langle \mathbf {Y^{\rm {T}}} \rangle$ and panel c shows their difference, which is $\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )$ (note a change in the colour scale). Unfortunately, this map is overwhelmed by uninteresting, common-mode correlations induced by laser intensity fluctuating from shot to shot. To suppress such correlations the laser intensity $I_{j}$ is recorded at every shot, put into $\mathbf {I}$ and $\operatorname {pcov} (\mathbf {X} ,\mathbf {Y} \mid \mathbf {I} )$ is calculated as panels d and e show. The suppression of the uninteresting correlations is, however, imperfect because there are other sources of common-mode fluctuations than the laser intensity and in principle all these sources should be monitored in vector $\mathbf {I}$ . Yet in practice it is often sufficient to overcompensate the partial covariance correction as panel f shows, where interesting correlations of ion momenta are now clearly visible as straight lines centred on ionisation stages of atomic nitrogen.

Two-dimensional infrared spectroscopy

Two-dimensional infrared spectroscopy employs correlation analysis to obtain 2D spectra of the condensed phase. There are two versions of this analysis: synchronous and asynchronous. Mathematically, the former is expressed in terms of the sample covariance matrix and the technique is equivalent to covariance mapping.^[12]

References

^ a b c Park,Kun Il (2018). Fundamentals of Probability and Stochastic Processes with Applications to Communications. Springer. ISBN 978-3-319-68074-3.
^ William Feller (1971). An introduction to probability theory and its applications. Wiley. ISBN 978-0-471-25709-7. Retrieved 10 August 2012.
^ Wasserman, Larry (2004). All of Statistics: A Concise Course in Statistical Inference. Springer. ISBN 0-387-40272-1.
^ Taboga, Marco (2010). "Lectures on probability theory and mathematical statistics".
^ Eaton, Morris L. (1983). Multivariate Statistics: a Vector Space Approach. John Wiley and Sons. pp. 116–117. ISBN 0-471-02776-6.
^ ab WJ Krzanowski "Principios del análisis multivariado" (Oxford University Press, Nueva York, 1988), cap. 14,4; KV Mardia, JT Kent y JM Bibby "Análisis multivariado (Academic Press, Londres, 1997), capítulo 6.5.3; TW Anderson "Una introducción al análisis estadístico multivariado" (Wiley, Nueva York, 2003), 3.ª ed., capítulos 2.5.1 y 4.3.1.
^ Lapidot, Amós (2009). Una Fundación en Comunicación Digital . Prensa de la Universidad de Cambridge. ISBN 978-0-521-19395-5.
^ Brookes, Mike. "El manual de referencia de Matrix". {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Shir, OM; A. Yehudayoff (2020). "Sobre la relación covarianza-Hesse en las estrategias de evolución". Informática Teórica . Elsevier. 801 : 157-174. arXiv : 1806.03674 . doi : 10.1016/j.tcs.2019.09.002 .
^ LJ Frasinski "Técnicas de mapeo de covarianza" J. Phys. Murciélago. Mol. Optar. Física. 49 152004 (2016), acceso abierto
^ ab O Kornilov, M Eckstein, M Rosenblatt, CP Schulz, K Motomura, A Rouzée, J Klei, L Foucar, M Siano, A Lübcke, F. Schapper, P Johnsson, DMP Holland, T Schlatholter, T Marchenko, S Düsterer , K Ueda, MJJ Vrakking y LJ Frasinski "Explosión de Coulomb de moléculas diatómicas en campos XUV intensos mapeados por covarianza parcial" J. Phys. Murciélago. Mol. Optar. Física. 46 164028 (2013), acceso abierto
^ I Noda "Método de correlación bidimensional generalizado aplicable a espectroscopia infrarroja, Raman y otros tipos" Appl. Espectrosc. 47 1329–36 (1993)

Otras lecturas

"Matriz de covarianza", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
"Matriz de covarianza explicada con imágenes", ¡una manera fácil de visualizar matrices de covarianza!
Weisstein, Eric W. "Matriz de covarianza". MundoMatemático .
van Kampen, NG (1981). Procesos estocásticos en física y química . Nueva York: Holanda Septentrional. ISBN 0-444-86200-5.