En estadística , a veces la matriz de covarianza de una variable aleatoria multivariada no se conoce pero debe estimarse . La estimación de matrices de covarianza aborda entonces la cuestión de cómo aproximar la matriz de covarianza real sobre la base de una muestra de la distribución multivariada . Los casos simples, en los que las observaciones son completas, se pueden abordar utilizando la matriz de covarianza muestral . La matriz de covarianza muestral (SCM) es un estimador insesgado y eficiente de la matriz de covarianza si el espacio de matrices de covarianza se considera como un cono convexo extrínseco en R p × p ; sin embargo, medido utilizando la geometría intrínseca de matrices definidas positivas , el SCM es un estimador sesgado e ineficiente. [1] Además, si la variable aleatoria tiene una distribución normal , la matriz de covarianza muestral tiene una distribución Wishart y una versión escalada ligeramente diferente es la estimación de máxima verosimilitud . Los casos que implican datos faltantes , heterocedasticidad o residuos autocorrelacionados requieren consideraciones más profundas. Otro problema es la solidez ante los valores atípicos , a los que las matrices de covarianza muestrales son muy sensibles. [2] [3] [4]
Los análisis estadísticos de datos multivariados a menudo implican estudios exploratorios de la forma en que las variables cambian entre sí y esto puede ser seguido por modelos estadísticos explícitos que involucran la matriz de covarianza de las variables. Por tanto, la estimación de matrices de covarianza directamente a partir de datos observacionales desempeña dos funciones:
Las estimaciones de matrices de covarianza se requieren en las etapas iniciales del análisis de componentes principales y del análisis factorial , y también están involucradas en versiones de análisis de regresión que tratan las variables dependientes en un conjunto de datos, junto con la variable independiente como el resultado de una muestra aleatoria. .
Dada una muestra que consta de n observaciones independientes x 1 ,..., x n de un vector aleatorio p -dimensional X ∈ R p ×1 (un vector columna p ×1), un estimador insesgado de ( p × p ) Matriz de covarianza
es la matriz de covarianza de la muestra
¿Dónde está la i -ésima observación del vector aleatorio p -dimensional y el vector
es la media muestral . Esto es cierto independientemente de la distribución de la variable aleatoria X , siempre que existan las medias teóricas y las covarianzas. La razón por la que el factor n − 1 en lugar de n es esencialmente la misma que la razón por la que el mismo factor aparece en estimaciones insesgadas de varianzas muestrales y covarianzas muestrales , que se relaciona con el hecho de que la media no se conoce y es reemplazada por la muestra. media (ver corrección de Bessel ).
En los casos en que se sabe que la distribución de la variable aleatoria X está dentro de una determinada familia de distribuciones, se pueden derivar otras estimaciones sobre la base de ese supuesto. Un ejemplo bien conocido es cuando la variable aleatoria X tiene una distribución normal : en este caso, el estimador de máxima verosimilitud de la matriz de covarianza es ligeramente diferente de la estimación insesgada y viene dado por
A continuación se proporciona una derivación de este resultado. Claramente, la diferencia entre el estimador insesgado y el estimador de máxima verosimilitud disminuye para n grande .
En el caso general, la estimación insesgada de la matriz de covarianza proporciona una estimación aceptable cuando todos los vectores de datos en el conjunto de datos observados están completos: es decir, no contienen elementos faltantes . Un enfoque para estimar la matriz de covarianza es tratar la estimación de cada varianza o covarianza por pares por separado y utilizar todas las observaciones para las cuales ambas variables tienen valores válidos. Suponiendo que los datos faltantes faltan al azar , esto da como resultado una estimación de la matriz de covarianza que es insesgada. Sin embargo, para muchas aplicaciones esta estimación puede no ser aceptable porque no se garantiza que la matriz de covarianza estimada sea semidefinida positiva. Esto podría conducir a correlaciones estimadas que tengan valores absolutos mayores que uno y/o una matriz de covarianza no invertible.
Al estimar la covarianza cruzada de un par de señales que son estacionarias de sentido amplio , no es necesario que las muestras faltantes sean aleatorias (por ejemplo, el submuestreo mediante un factor arbitrario es válido). [ cita necesaria ]
Un vector aleatorio X ∈ R p (un "vector columna" p ×1 ) tiene una distribución normal multivariada con una matriz de covarianza no singular Σ precisamente si Σ ∈ R p × p es una matriz definida positiva y la función de densidad de probabilidad de X es
donde μ ∈ R p ×1 es el valor esperado de X . La matriz de covarianza Σ es el análogo multidimensional de lo que en una dimensión sería la varianza , y
normaliza la densidad para que se integre a 1.
Supongamos ahora que X 1 , ..., X n son muestras independientes y distribuidas idénticamente de la distribución anterior. Con base en los valores observados x 1 , ..., x n de esta muestra , deseamos estimar Σ.
La función de probabilidad es:
Se demuestra con bastante facilidad que la estimación de máxima verosimilitud del vector medio μ es el vector " media muestral ":
Consulte la sección sobre estimación en el artículo sobre distribución normal para obtener más detalles; El proceso aquí es similar.
Dado que la estimación no depende de Σ, podemos simplemente sustituirla por μ en la función de verosimilitud , obteniendo
y luego buscar el valor de Σ que maximice la probabilidad de los datos (en la práctica es más fácil trabajar con log ).
Ahora llegamos al primer paso sorprendente: considerar el escalar como la traza de una matriz de 1×1. Esto hace posible utilizar la identidad tr( AB ) = tr( BA ) siempre que A y B sean matrices con una forma tal que ambos productos existan. Obtenemos
dónde
a veces se llama matriz de dispersión y es definida positiva si existe un subconjunto de datos que consta de observaciones afines independientes (lo cual asumiremos).
Del teorema espectral del álgebra lineal se deduce que una matriz simétrica definida positiva S tiene una raíz cuadrada simétrica definida positiva única S 1/2 . Podemos usar nuevamente la "propiedad cíclica" de la traza para escribir
Sea B = S 1/2 Σ −1 S 1/2 . Entonces la expresión anterior se convierte en
La matriz definida positiva B se puede diagonalizar, y luego el problema de encontrar el valor de B que maximiza
Dado que la traza de una matriz cuadrada es igual a la suma de valores propios ( "traza y valores propios" ), la ecuación se reduce al problema de encontrar los valores propios λ 1 , ..., λ p que maximizan
Esto es sólo un problema de cálculo y obtenemos λ i = n para todo i. Por lo tanto, supongamos que Q es la matriz de vectores propios, entonces
es decir, n veces la matriz identidad p × p .
Finalmente conseguimos
es decir, la "matriz de covarianza de muestra" p × p
es el estimador de máxima verosimilitud de la "matriz de covarianza poblacional" Σ. En este punto estamos usando una X mayúscula en lugar de una x minúscula porque pensamos en ella "como un estimador en lugar de una estimación", es decir, como algo aleatorio cuya distribución de probabilidad podríamos beneficiar si conociéramos. Se puede demostrar que la matriz aleatoria S tiene una distribución Wishart con n - 1 grados de libertad. [5] Es decir:
Se puede realizar una derivación alternativa del estimador de máxima verosimilitud mediante fórmulas de cálculo matricial (ver también diferencial de un determinante y diferencial de la matriz inversa ). También verifica el hecho antes mencionado sobre la estimación de máxima verosimilitud de la media. Vuelva a escribir la probabilidad en el formulario de registro utilizando el truco de seguimiento:
El diferencial de esta probabilidad logarítmica es
Naturalmente se divide en la parte relacionada con la estimación de la media y en la parte relacionada con la estimación de la varianza. La condición de primer orden para el máximo, , se satisface cuando los términos que se multiplican por y son idénticamente cero. Suponiendo que (la estimación de máxima verosimilitud de) no sea singular, la condición de primer orden para la estimación del vector medio es
lo que conduce al estimador de máxima verosimilitud
Esto nos permite simplificar
como se definió anteriormente. Entonces los términos que involucran en se pueden combinar como
La condición de primer orden se cumplirá cuando el término entre corchetes sea cero (con valor matricial). Multiplicar previamente este último por y dividir por da
que por supuesto coincide con la derivación canónica dada anteriormente.
Dwyer [6] señala que la descomposición en dos términos como la que aparece arriba es "innecesaria" y deriva el estimador en dos líneas de trabajo. Tenga en cuenta que puede no ser trivial demostrar que dicho estimador derivado es el único maximizador global para la función de verosimilitud.
Dada una muestra de n observaciones independientes x 1 ,..., x n de una variable aleatoria gaussiana de dimensión p -cero X con covarianza R , el estimador de máxima verosimilitud de R viene dado por
El parámetro pertenece al conjunto de matrices definidas positivas , que es una variedad de Riemann , no un espacio vectorial , de ahí las nociones habituales de expectativa del espacio vectorial , es decir, " ", y el sesgo del estimador debe generalizarse a variedades para dar sentido a la problema de estimación de matriz de covarianza. Esto se puede hacer definiendo la expectativa de un estimador de valores múltiples con respecto al punto de valores múltiples como
dónde
son el mapa exponencial y el mapa exponencial inverso, respectivamente, "exp" y "log" denotan la matriz exponencial ordinaria y el logaritmo matricial , y E[·] es el operador de expectativa ordinario definido en un espacio vectorial, en este caso el espacio tangente de el colector. [1]
El campo vectorial de sesgo intrínseco del estimador SCM se define como
El sesgo intrínseco del estimador viene dado por .
Para variables aleatorias gaussianas complejas , se puede mostrar que este campo vectorial de sesgo [1] es igual
dónde
y ψ(·) es la función digamma . El sesgo intrínseco de la matriz de covarianza muestral es igual
y el SCM es asintóticamente insesgado cuando n → ∞.
De manera similar, la ineficiencia intrínseca de la matriz de covarianza muestral depende de la curvatura de Riemann del espacio de matrices definidas positivas.
Si el tamaño de la muestra n es pequeño y el número de variables consideradas p es grande, los estimadores empíricos de covarianza y correlación anteriores son muy inestables. Específicamente, es posible proporcionar estimadores que mejoren considerablemente la estimación de máxima verosimilitud en términos de error cuadrático medio. Además, para n < p (el número de observaciones es menor que el número de variables aleatorias), la estimación empírica de la matriz de covarianza se vuelve singular , es decir, no se puede invertir para calcular la matriz de precisión .
Como alternativa, se han sugerido muchos métodos para mejorar la estimación de la matriz de covarianza. Todos estos enfoques se basan en el concepto de contracción. Esto está implícito en los métodos bayesianos y en los métodos penalizados de máxima verosimilitud y explícito en el enfoque de contracción tipo Stein .
Una versión simple de un estimador de contracción de la matriz de covarianza está representada por el estimador de contracción de Ledoit-Wolf. [7] [8] [9] [10] Se considera una combinación convexa del estimador empírico ( ) con algún objetivo elegido adecuado ( ), por ejemplo, la matriz diagonal. Posteriormente, se selecciona el parámetro de mezcla ( ) para maximizar la precisión esperada del estimador reducido. Esto se puede hacer mediante validación cruzada o utilizando una estimación analítica de la intensidad de la contracción. Se puede demostrar que el estimador regularizado resultante ( ) supera al estimador de máxima verosimilitud para muestras pequeñas. Para muestras grandes, la intensidad de la contracción se reducirá a cero, por lo que en este caso el estimador de contracción será idéntico al estimador empírico. Además de una mayor eficiencia, la estimación de la contracción tiene la ventaja adicional de que siempre es positiva, definida y está bien condicionada.
Se han propuesto varios objetivos de contracción:
El estimador de contracción se puede generalizar a un estimador de contracción de múltiples objetivos que utiliza varios objetivos simultáneamente. [11] El software para calcular un estimador de contracción de covarianza está disponible en R (paquetes corpcor [12] y ShrinkCovMat [13] ), en Python ( biblioteca scikit-learn [1]) y en MATLAB . [14]
{{citation}}
: CS1 maint: location missing publisher (link){{citation}}
: CS1 maint: location missing publisher (link)