Estimación de matrices de covarianza.

En estadística , a veces la matriz de covarianza de una variable aleatoria multivariada no se conoce pero debe estimarse . La estimación de matrices de covarianza aborda entonces la cuestión de cómo aproximar la matriz de covarianza real sobre la base de una muestra de la distribución multivariada . Los casos simples, en los que las observaciones son completas, se pueden abordar utilizando la matriz de covarianza muestral . La matriz de covarianza muestral (SCM) es un estimador insesgado y eficiente de la matriz de covarianza si el espacio de matrices de covarianza se considera como un cono convexo extrínseco en R ^p^×^p ; sin embargo, medido utilizando la geometría intrínseca de matrices definidas positivas , el SCM es un estimador sesgado e ineficiente. ^[1] Además, si la variable aleatoria tiene una distribución normal , la matriz de covarianza muestral tiene una distribución Wishart y una versión escalada ligeramente diferente es la estimación de máxima verosimilitud . Los casos que implican datos faltantes , heterocedasticidad o residuos autocorrelacionados requieren consideraciones más profundas. Otro problema es la solidez ante los valores atípicos , a los que las matrices de covarianza muestrales son muy sensibles. ^[2]^[3]^[4]

Los análisis estadísticos de datos multivariados a menudo implican estudios exploratorios de la forma en que las variables cambian entre sí y esto puede ser seguido por modelos estadísticos explícitos que involucran la matriz de covarianza de las variables. Por tanto, la estimación de matrices de covarianza directamente a partir de datos observacionales desempeña dos funciones:

proporcionar estimaciones iniciales que puedan utilizarse para estudiar las interrelaciones;
para proporcionar estimaciones de muestra que puedan usarse para la verificación del modelo.

Las estimaciones de matrices de covarianza se requieren en las etapas iniciales del análisis de componentes principales y del análisis factorial , y también están involucradas en versiones de análisis de regresión que tratan las variables dependientes en un conjunto de datos, junto con la variable independiente como el resultado de una muestra aleatoria. .

Estimación en un contexto general.

Dada una muestra que consta de n observaciones independientes x ₁ ,..., x _n de un vector aleatorio p -dimensional X ∈ R ^p^×1 (un vector columna p ×1), un estimador insesgado de ( p × p ) Matriz de covarianza

\operatorname {\Sigma } =\operatorname {E} \left[\left(X-\operatorname {E} [X]\right)\left(X-\operatorname {E} [X]\right)^{\mathrm {T} }\right]

es la matriz de covarianza de la muestra

\mathbf {Q} ={1 \over {n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})(x_{i}-{\overline {x}})^{\mathrm {T} },

¿Dónde está la i -ésima observación del vector aleatorio p -dimensional y el vector $x_{i}$

{\overline {x}}={1 \over {n}}\sum _{i=1}^{n}x_{i}

es la media muestral . Esto es cierto independientemente de la distribución de la variable aleatoria X , siempre que existan las medias teóricas y las covarianzas. La razón por la que el factor n − 1 en lugar de n es esencialmente la misma que la razón por la que el mismo factor aparece en estimaciones insesgadas de varianzas muestrales y covarianzas muestrales , que se relaciona con el hecho de que la media no se conoce y es reemplazada por la muestra. media (ver corrección de Bessel ).

En los casos en que se sabe que la distribución de la variable aleatoria X está dentro de una determinada familia de distribuciones, se pueden derivar otras estimaciones sobre la base de ese supuesto. Un ejemplo bien conocido es cuando la variable aleatoria X tiene una distribución normal : en este caso, el estimador de máxima verosimilitud de la matriz de covarianza es ligeramente diferente de la estimación insesgada y viene dado por

\mathbf {Q_{n}} ={1 \over n}\sum _{i=1}^{n}(x_{i}-{\overline {x}})(x_{i}-{\overline {x}})^{\mathrm {T} }.

A continuación se proporciona una derivación de este resultado. Claramente, la diferencia entre el estimador insesgado y el estimador de máxima verosimilitud disminuye para n grande .

En el caso general, la estimación insesgada de la matriz de covarianza proporciona una estimación aceptable cuando todos los vectores de datos en el conjunto de datos observados están completos: es decir, no contienen elementos faltantes . Un enfoque para estimar la matriz de covarianza es tratar la estimación de cada varianza o covarianza por pares por separado y utilizar todas las observaciones para las cuales ambas variables tienen valores válidos. Suponiendo que los datos faltantes faltan al azar , esto da como resultado una estimación de la matriz de covarianza que es insesgada. Sin embargo, para muchas aplicaciones esta estimación puede no ser aceptable porque no se garantiza que la matriz de covarianza estimada sea semidefinida positiva. Esto podría conducir a correlaciones estimadas que tengan valores absolutos mayores que uno y/o una matriz de covarianza no invertible.

Al estimar la covarianza cruzada de un par de señales que son estacionarias de sentido amplio , no es necesario que las muestras faltantes sean aleatorias (por ejemplo, el submuestreo mediante un factor arbitrario es válido). ^{[ cita necesaria ]}

Estimación de máxima verosimilitud para la distribución normal multivariada

Un vector aleatorio X ∈ R ^p (un "vector columna" p ×1 ) tiene una distribución normal multivariada con una matriz de covarianza no singular Σ precisamente si Σ ∈ R ^{p × p} es una matriz definida positiva y la función de densidad de probabilidad de X es

f(x)=(2\pi )^{-{\frac {p}{2}}}\,\det(\Sigma )^{-{\frac {1}{2}}}\exp \left(-{1 \over 2}(x-\mu )^{\mathrm {T} }\Sigma ^{-1}(x-\mu )\right)

donde μ ∈ R ^{p ×1} es el valor esperado de X . La matriz de covarianza Σ es el análogo multidimensional de lo que en una dimensión sería la varianza , y

(2\pi )^{-{\frac {p}{2}}}\det(\Sigma )^{-{\frac {1}{2}}}

normaliza la densidad para que se integre a 1. $f(x)$

Supongamos ahora que X ₁ , ..., X _n son muestras independientes y distribuidas idénticamente de la distribución anterior. Con base en los valores observados x ₁ , ..., x _n de esta muestra , deseamos estimar Σ.

Primeros pasos

La función de probabilidad es:

{\mathcal {L}}(\mu ,\Sigma )=(2\pi )^{-{\frac {np}{2}}}\,\prod _{i=1}^{n}\det(\Sigma )^{-{\frac {1}{2}}}\exp \left(-{\frac {1}{2}}(x_{i}-\mu )^{\mathrm {T} }\Sigma ^{-1}(x_{i}-\mu )\right)

Se demuestra con bastante facilidad que la estimación de máxima verosimilitud del vector medio μ es el vector " media muestral ":

{\overline {x}}={\frac {x_{1}+\cdots +x_{n}}{n}}.

Consulte la sección sobre estimación en el artículo sobre distribución normal para obtener más detalles; El proceso aquí es similar.

Dado que la estimación no depende de Σ, podemos simplemente sustituirla por μ en la función de verosimilitud , obteniendo ${\bar {x}}$

{\mathcal {L}}({\overline {x}},\Sigma )\propto \det(\Sigma )^{-{\frac {n}{2}}}\exp \left(-{1 \over 2}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{\mathrm {T} }\Sigma ^{-1}(x_{i}-{\overline {x}})\right),

y luego buscar el valor de Σ que maximice la probabilidad de los datos (en la práctica es más fácil trabajar con log ). ${\mathcal {L}}$

La traza de una matriz 1 × 1

Ahora llegamos al primer paso sorprendente: considerar el escalar como la traza de una matriz de 1×1. Esto hace posible utilizar la identidad tr( AB ) = tr( BA ) siempre que A y B sean matrices con una forma tal que ambos productos existan. Obtenemos $(x_{i}-{\overline {x}})^{\mathrm {T} }\Sigma ^{-1}(x_{i}-{\overline {x}})$

{\begin{aligned}{\mathcal {L}}({\overline {x}},\Sigma )&\propto \det(\Sigma )^{-{\frac {n}{2}}}\exp \left(-{1 \over 2}\sum _{i=1}^{n}\left(\left(x_{i}-{\overline {x}}\right)^{\mathrm {T} }\Sigma ^{-1}\left(x_{i}-{\overline {x}}\right)\right)\right)\\&=\det(\Sigma )^{-{\frac {n}{2}}}\exp \left(-{1 \over 2}\sum _{i=1}^{n}\operatorname {tr} \left(\left(x_{i}-{\overline {x}}\right)\left(x_{i}-{\overline {x}}\right)^{\mathrm {T} }\Sigma ^{-1}\right)\right)\\&=\det(\Sigma )^{-{\frac {n}{2}}}\exp \left(-{1 \over 2}\operatorname {tr} \left(\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)\left(x_{i}-{\overline {x}}\right)^{\mathrm {T} }\Sigma ^{-1}\right)\right)\\&=\det(\Sigma )^{-{\frac {n}{2}}}\exp \left(-{1 \over 2}\operatorname {tr} \left(S\Sigma ^{-1}\right)\right)\end{aligned}}

dónde

S=\sum _{i=1}^{n}(x_{i}-{\overline {x}})(x_{i}-{\overline {x}})^{\mathrm {T} }\in \mathbf {R} ^{p\times p}.

$S$ a veces se llama matriz de dispersión y es definida positiva si existe un subconjunto de datos que consta de observaciones afines independientes (lo cual asumiremos). $p$

Usando el teorema espectral

Del teorema espectral del álgebra lineal se deduce que una matriz simétrica definida positiva S tiene una raíz cuadrada simétrica definida positiva única S ^1/2 . Podemos usar nuevamente la "propiedad cíclica" de la traza para escribir

\det(\Sigma )^{-{\frac {n}{2}}}\exp \left(-{1 \over 2}\operatorname {tr} \left(S^{\frac {1}{2}}\Sigma ^{-1}S^{\frac {1}{2}}\right)\right).

Sea B = S ^1/2 Σ ⁻¹ S ^1/2 . Entonces la expresión anterior se convierte en

\det(S)^{-{\frac {n}{2}}}\det(B)^{\frac {n}{2}}\exp \left(-{1 \over 2}\operatorname {tr} (B)\right).

La matriz definida positiva B se puede diagonalizar, y luego el problema de encontrar el valor de B que maximiza

\det(B)^{\frac {n}{2}}\exp \left(-{1 \over 2}\operatorname {tr} (B)\right)

Dado que la traza de una matriz cuadrada es igual a la suma de valores propios ( "traza y valores propios" ), la ecuación se reduce al problema de encontrar los valores propios λ ₁ , ..., λ _p que maximizan

\lambda _{i}^{\frac {n}{2}}\exp \left(-{\frac {\lambda _{i}}{2}}\right).

Esto es sólo un problema de cálculo y obtenemos λ _i = n para todo i. Por lo tanto, supongamos que Q es la matriz de vectores propios, entonces

B=Q(nI_{p})Q^{-1}=nI_{p}

es decir, n veces la matriz identidad p × p .

Pasos finales

Finalmente conseguimos

\Sigma =S^{\frac {1}{2}}B^{-1}S^{\frac {1}{2}}=S^{\frac {1}{2}}\left({\frac {1}{n}}I_{p}\right)S^{\frac {1}{2}}={\frac {S}{n}},

es decir, la "matriz de covarianza de muestra" p × p

{S \over n}={1 \over n}\sum _{i=1}^{n}(X_{i}-{\overline {X}})(X_{i}-{\overline {X}})^{\mathrm {T} }

es el estimador de máxima verosimilitud de la "matriz de covarianza poblacional" Σ. En este punto estamos usando una X mayúscula en lugar de una x minúscula porque pensamos en ella "como un estimador en lugar de una estimación", es decir, como algo aleatorio cuya distribución de probabilidad podríamos beneficiar si conociéramos. Se puede demostrar que la matriz aleatoria S tiene una distribución Wishart con n - 1 grados de libertad. ^[5] Es decir:

\sum _{i=1}^{n}(X_{i}-{\overline {X}})(X_{i}-{\overline {X}})^{\mathrm {T} }\sim W_{p}(\Sigma ,n-1).

Derivación alternativa

Se puede realizar una derivación alternativa del estimador de máxima verosimilitud mediante fórmulas de cálculo matricial (ver también diferencial de un determinante y diferencial de la matriz inversa ). También verifica el hecho antes mencionado sobre la estimación de máxima verosimilitud de la media. Vuelva a escribir la probabilidad en el formulario de registro utilizando el truco de seguimiento:

\ln {\mathcal {L}}(\mu ,\Sigma )=\operatorname {const} -{n \over 2}\ln \det(\Sigma )-{1 \over 2}\operatorname {tr} \left[\Sigma ^{-1}\sum _{i=1}^{n}(x_{i}-\mu )(x_{i}-\mu )^{\mathrm {T} }\right].

El diferencial de esta probabilidad logarítmica es

d\ln {\mathcal {L}}(\mu ,\Sigma )=-{\frac {n}{2}}\operatorname {tr} \left[\Sigma ^{-1}\left\{d\Sigma \right\}\right]-{1 \over 2}\operatorname {tr} \left[-\Sigma ^{-1}\{d\Sigma \}\Sigma ^{-1}\sum _{i=1}^{n}(x_{i}-\mu )(x_{i}-\mu )^{\mathrm {T} }-2\Sigma ^{-1}\sum _{i=1}^{n}(x_{i}-\mu )\{d\mu \}^{\mathrm {T} }\right].

Naturalmente se divide en la parte relacionada con la estimación de la media y en la parte relacionada con la estimación de la varianza. La condición de primer orden para el máximo, , se satisface cuando los términos que se multiplican por y son idénticamente cero. Suponiendo que (la estimación de máxima verosimilitud de) no sea singular, la condición de primer orden para la estimación del vector medio es $d\ln {\mathcal {L}}(\mu ,\Sigma )=0$ $d\mu$ $d\Sigma$ $\Sigma$

\sum _{i=1}^{n}(x_{i}-\mu )=0,

lo que conduce al estimador de máxima verosimilitud

{\widehat {\mu }}={\bar {X}}={1 \over n}\sum _{i=1}^{n}X_{i}.

Esto nos permite simplificar

\sum _{i=1}^{n}(x_{i}-\mu )(x_{i}-\mu )^{\mathrm {T} }=\sum _{i=1}^{n}(x_{i}-{\bar {x}})(x_{i}-{\bar {x}})^{\mathrm {T} }=S

como se definió anteriormente. Entonces los términos que involucran en se pueden combinar como $d\Sigma$ $d\ln L$

-{1 \over 2}\operatorname {tr} \left(\Sigma ^{-1}\left\{d\Sigma \right\}\left[nI_{p}-\Sigma ^{-1}S\right]\right).

La condición de primer orden se cumplirá cuando el término entre corchetes sea cero (con valor matricial). Multiplicar previamente este último por y dividir por da $d\ln {\mathcal {L}}(\mu ,\Sigma )=0$ $\Sigma$ $n$

{\widehat {\Sigma }}={1 \over n}S,

que por supuesto coincide con la derivación canónica dada anteriormente.

Dwyer ^[6] señala que la descomposición en dos términos como la que aparece arriba es "innecesaria" y deriva el estimador en dos líneas de trabajo. Tenga en cuenta que puede no ser trivial demostrar que dicho estimador derivado es el único maximizador global para la función de verosimilitud.

Estimación de la matriz de covarianza intrínseca

Expectativa intrínseca

Dada una muestra de n observaciones independientes x ₁ ,..., x _n de una variable aleatoria gaussiana de dimensión p -cero X con covarianza R , el estimador de máxima verosimilitud de R viene dado por

{\hat {\mathbf {R} }}={1 \over n}\sum _{i=1}^{n}x_{i}x_{i}^{\mathrm {T} }.

El parámetro pertenece al conjunto de matrices definidas positivas , que es una variedad de Riemann , no un espacio vectorial , de ahí las nociones habituales de expectativa del espacio vectorial , es decir, " ", y el sesgo del estimador debe generalizarse a variedades para dar sentido a la problema de estimación de matriz de covarianza. Esto se puede hacer definiendo la expectativa de un estimador de valores múltiples con respecto al punto de valores múltiples como $R$ $\mathrm {E} [{\hat {\mathbf {R} }}]$ ${\hat {\mathbf {R} }}$ $R$

\mathrm {E} _{\mathbf {R} }[{\hat {\mathbf {R} }}]\ {\stackrel {\mathrm {def} }{=}}\ \exp _{\mathbf {R} }\mathrm {E} \left[\exp _{\mathbf {R} }^{-1}{\hat {\mathbf {R} }}\right]

dónde

\exp _{\mathbf {R} }({\hat {\mathbf {R} }})=\mathbf {R} ^{\frac {1}{2}}\exp \left(\mathbf {R} ^{-{\frac {1}{2}}}{\hat {\mathbf {R} }}\mathbf {R} ^{-{\frac {1}{2}}}\right)\mathbf {R} ^{\frac {1}{2}}

\exp _{\mathbf {R} }^{-1}({\hat {\mathbf {R} }})=\mathbf {R} ^{\frac {1}{2}}\left(\log \mathbf {R} ^{-{\frac {1}{2}}}{\hat {\mathbf {R} }}\mathbf {R} ^{-{\frac {1}{2}}}\right)\mathbf {R} ^{\frac {1}{2}}

son el mapa exponencial y el mapa exponencial inverso, respectivamente, "exp" y "log" denotan la matriz exponencial ordinaria y el logaritmo matricial , y E[·] es el operador de expectativa ordinario definido en un espacio vectorial, en este caso el espacio tangente de el colector. ^[1]

Sesgo de la matriz de covarianza muestral

El campo vectorial de sesgo intrínseco del estimador SCM se define como ${\hat {\mathbf {R} }}$

\mathbf {B} ({\hat {\mathbf {R} }})=\exp _{\mathbf {R} }^{-1}\mathrm {E} _{\mathbf {R} }\left[{\hat {\mathbf {R} }}\right]=\mathrm {E} \left[\exp _{\mathbf {R} }^{-1}{\hat {\mathbf {R} }}\right]

El sesgo intrínseco del estimador viene dado por . $\exp _{\mathbf {R} }\mathbf {B} ({\hat {\mathbf {R} }})$

Para variables aleatorias gaussianas complejas , se puede mostrar que este campo vectorial de sesgo ^[1] es igual

\mathbf {B} ({\hat {\mathbf {R} }})=-\beta (p,n)\mathbf {R}

dónde

\beta (p,n)={\frac {1}{p}}\left(p\log n+p-\psi (n-p+1)+(n-p+1)\psi (n-p+2)+\psi (n+1)-(n+1)\psi (n+2)\right)

y ψ(·) es la función digamma . El sesgo intrínseco de la matriz de covarianza muestral es igual

\exp _{\mathbf {R} }\mathbf {B} ({\hat {\mathbf {R} }})=e^{-\beta (p,n)}\mathbf {R}

y el SCM es asintóticamente insesgado cuando n → ∞.

De manera similar, la ineficiencia intrínseca de la matriz de covarianza muestral depende de la curvatura de Riemann del espacio de matrices definidas positivas.

Estimación de contracción

Si el tamaño de la muestra n es pequeño y el número de variables consideradas p es grande, los estimadores empíricos de covarianza y correlación anteriores son muy inestables. Específicamente, es posible proporcionar estimadores que mejoren considerablemente la estimación de máxima verosimilitud en términos de error cuadrático medio. Además, para n < p (el número de observaciones es menor que el número de variables aleatorias), la estimación empírica de la matriz de covarianza se vuelve singular , es decir, no se puede invertir para calcular la matriz de precisión .

Como alternativa, se han sugerido muchos métodos para mejorar la estimación de la matriz de covarianza. Todos estos enfoques se basan en el concepto de contracción. Esto está implícito en los métodos bayesianos y en los métodos penalizados de máxima verosimilitud y explícito en el enfoque de contracción tipo Stein .

Una versión simple de un estimador de contracción de la matriz de covarianza está representada por el estimador de contracción de Ledoit-Wolf. ^[7]^[8]^[9]^[10] Se considera una combinación convexa del estimador empírico ( ) con algún objetivo elegido adecuado ( ), por ejemplo, la matriz diagonal. Posteriormente, se selecciona el parámetro de mezcla ( ) para maximizar la precisión esperada del estimador reducido. Esto se puede hacer mediante validación cruzada o utilizando una estimación analítica de la intensidad de la contracción. Se puede demostrar que el estimador regularizado resultante ( ) supera al estimador de máxima verosimilitud para muestras pequeñas. Para muestras grandes, la intensidad de la contracción se reducirá a cero, por lo que en este caso el estimador de contracción será idéntico al estimador empírico. Además de una mayor eficiencia, la estimación de la contracción tiene la ventaja adicional de que siempre es positiva, definida y está bien condicionada. $A$ $B$ $\delta$ $\delta A+(1-\delta )B$

Se han propuesto varios objetivos de contracción:

la matriz de identidad , escalada por la varianza muestral promedio ;
el modelo de índice único ;
el modelo de correlación constante, donde se conservan las varianzas muestrales, pero se supone que todos los coeficientes de correlación por pares son iguales entre sí;
la matriz de dos parámetros, donde todas las varianzas son idénticas y todas las covarianzas son idénticas entre sí (aunque no idénticas a las varianzas);
la matriz diagonal que contiene varianzas muestrales en la diagonal y ceros en el resto;
la matriz de identidad . ^[8]

El estimador de contracción se puede generalizar a un estimador de contracción de múltiples objetivos que utiliza varios objetivos simultáneamente. ^[11] El software para calcular un estimador de contracción de covarianza está disponible en R (paquetes corpcor ^[12] y ShrinkCovMat ^[13] ), en Python ( biblioteca scikit-learn [1]) y en MATLAB . ^[14]

Ver también

Referencias

^ abc Smith, Steven Thomas (mayo de 2005). "Covarianza, subespacio y límites intrínsecos de Cramér-Rao". Traducción IEEE. Proceso de señal . 53 (5): 1610-1630. doi :10.1109/TSP.2005.845428. S2CID 2751194.
^ Estadísticas robustas , Peter J. Huber , Wiley, 1981 (reeditado en edición de bolsillo, 2004)
^ "Estadística aplicada moderna con S", William N. Venables, Brian D. Ripley , Springer, 2002, ISBN 0-387-95457-0 , ISBN 978-0-387-95457-8 , página 336
^ Devlin, Susan J .; Gnanadesikan, R.; Kettenring, JR (1975). "Estimación robusta y detección de valores atípicos con coeficientes de correlación". Biometrika . 62 (3): 531–545. doi :10.1093/biomet/62.3.531.
^ KV Mardia , JT Kent y JM Bibby (1979) Análisis multivariado , Academic Press .
^ Dwyer, Paul S. (junio de 1967). "Algunas aplicaciones de derivadas matriciales en análisis multivariado". Revista de la Asociación Estadounidense de Estadística . 62 (318): 607–625. doi :10.2307/2283988. JSTOR 2283988.
^ O. Ledoit y M. Wolf (2004a) "Un estimador bien condicionado para matrices de covarianza de grandes dimensiones Archivado el 5 de diciembre de 2014 en la Wayback Machine " Journal of Multivariate Analysis 88 (2): 365—411.
^ ab A. Touloumis (2015) "Estimadores de matrices de covarianza de contracción de tipo Stein no paramétricos en entornos de alta dimensión" Computational Statistics & Data Analysis 83 : 251—261.
^ O. Ledoit y M. Wolf (2003) "Estimación mejorada de la matriz de covarianza de los rendimientos de las acciones con una aplicación a la selección de carteras Archivado el 5 de diciembre de 2014 en Wayback Machine " Journal of Empirical Finance 10 (5): 603—621 .
^ O. Ledoit y M. Wolf (2004b) "Cariño, encogí la matriz de covarianza de la muestra Archivado el 5 de diciembre de 2014 en Wayback Machine " The Journal of Portfolio Management 30 (4): 110—119.
^ T. Lancewicki y M. Aladjem (2014) "Estimación de contracción de múltiples objetivos para matrices de covarianza", IEEE Transactions on Signal Processing , volumen: 62, número 24, páginas: 6380-6390.
^ corpcor: Estimación eficiente de covarianza y correlación (parcial), CRAN, 16 de septiembre de 2021{{citation}}: CS1 maint: location missing publisher (link)
^ ShrinkCovMat: Estimadores de matriz de covarianza de contracción, CRAN, 30 de julio de 2019{{citation}}: CS1 maint: location missing publisher (link)
^ Código MATLAB para objetivos de contracción: identidad escalada, modelo de índice único, modelo de correlación constante, matriz de dos parámetros y matriz diagonal.