En estadística , a veces no se conoce la matriz de covarianza de una variable aleatoria multivariante, pero debe estimarse . La estimación de matrices de covarianza se ocupa entonces de la cuestión de cómo aproximar la matriz de covarianza real sobre la base de una muestra de la distribución multivariante . Los casos simples, donde las observaciones están completas, pueden abordarse utilizando la matriz de covarianza de muestra . La matriz de covarianza de muestra (SCM) es un estimador imparcial y eficiente de la matriz de covarianza si el espacio de matrices de covarianza se considera como un cono convexo extrínseco en R p × p ; sin embargo, medido utilizando la geometría intrínseca de matrices definidas positivas , el SCM es un estimador sesgado e ineficiente. [1] Además, si la variable aleatoria tiene una distribución normal , la matriz de covarianza de muestra tiene una distribución Wishart y una versión escalada ligeramente diferente de esta es la estimación de máxima verosimilitud . Los casos que involucran datos faltantes , heterocedasticidad o residuos autocorrelacionados requieren consideraciones más profundas. Otro problema es la robustez ante valores atípicos , a los que las matrices de covarianza de muestras son altamente sensibles. [2] [3] [4]
Los análisis estadísticos de datos multivariados suelen implicar estudios exploratorios de la forma en que las variables cambian entre sí, y esto puede ir seguido de modelos estadísticos explícitos que involucran la matriz de covarianza de las variables. Por lo tanto, la estimación de matrices de covarianza directamente a partir de datos observacionales cumple dos funciones:
Las estimaciones de matrices de covarianza son necesarias en las etapas iniciales del análisis de componentes principales y del análisis factorial , y también se utilizan en versiones del análisis de regresión que tratan las variables dependientes en un conjunto de datos, junto con la variable independiente , como el resultado de una muestra aleatoria.
Dada una muestra que consta de n observaciones independientes x 1 ,..., x n de un vector aleatorio p -dimensional X ∈ R p ×1 (un vector columna p ×1), un estimador insesgado de la matriz de covarianza ( p × p )
es la matriz de covarianza de muestra
donde es la i -ésima observación del vector aleatorio p -dimensional, y el vector
es la media de la muestra . Esto es cierto independientemente de la distribución de la variable aleatoria X , siempre que existan las medias y covarianzas teóricas. La razón para el factor n − 1 en lugar de n es esencialmente la misma que la razón para que el mismo factor aparezca en estimaciones no sesgadas de varianzas y covarianzas de la muestra , que se relaciona con el hecho de que la media no se conoce y se reemplaza por la media de la muestra (ver la corrección de Bessel ).
En los casos en que se sabe que la distribución de la variable aleatoria X se encuentra dentro de una determinada familia de distribuciones, se pueden derivar otras estimaciones sobre la base de ese supuesto. Un caso bien conocido es cuando la variable aleatoria X se distribuye normalmente : en este caso, el estimador de máxima verosimilitud de la matriz de covarianza es ligeramente diferente de la estimación insesgada y se da por
A continuación se ofrece una derivación de este resultado. Claramente, la diferencia entre el estimador insesgado y el estimador de máxima verosimilitud disminuye para valores grandes de n .
En el caso general, la estimación no sesgada de la matriz de covarianza proporciona una estimación aceptable cuando los vectores de datos en el conjunto de datos observados están todos completos: es decir, no contienen elementos faltantes . Un enfoque para estimar la matriz de covarianza es tratar la estimación de cada varianza o covarianza por pares por separado y utilizar todas las observaciones para las que ambas variables tienen valores válidos. Suponiendo que los datos faltantes faltan al azar, esto da como resultado una estimación para la matriz de covarianza que es no sesgada. Sin embargo, para muchas aplicaciones, esta estimación puede no ser aceptable porque no se garantiza que la matriz de covarianza estimada sea semidefinida positiva. Esto podría llevar a correlaciones estimadas que tengan valores absolutos que sean mayores que uno y/o una matriz de covarianza no invertible.
Al estimar la covarianza cruzada de un par de señales que son estacionarias en sentido amplio , las muestras faltantes no necesitan ser aleatorias (por ejemplo, el submuestreo por un factor arbitrario es válido). [ cita requerida ]
Un vector aleatorio X ∈ R p (un "vector columna" p ×1) tiene una distribución normal multivariada con una matriz de covarianza no singular Σ precisamente si Σ ∈ R p × p es una matriz definida positiva y la función de densidad de probabilidad de X es
donde μ ∈ R p ×1 es el valor esperado de X . La matriz de covarianza Σ es el análogo multidimensional de lo que en una dimensión sería la varianza , y
normaliza la densidad para que se integre a 1.
Supongamos ahora que X 1 , ..., X n son muestras independientes e idénticamente distribuidas de la distribución anterior. Con base en los valores observados x 1 , ..., x n de esta muestra , deseamos estimar Σ.
La función de verosimilitud es:
Se demuestra con bastante facilidad que la estimación de máxima verosimilitud del vector medio μ es el vector de " media de la muestra ":
Consulte la sección sobre estimación en el artículo sobre la distribución normal para obtener más detalles; el proceso aquí es similar.
Dado que la estimación no depende de Σ, podemos simplemente sustituirla por μ en la función de verosimilitud , obteniendo
y luego buscar el valor de Σ que maximice la verosimilitud de los datos (en la práctica es más fácil trabajar con log ).
Ahora llegamos al primer paso sorprendente: considerar el escalar como la traza de una matriz 1×1. Esto hace posible utilizar la identidad tr( AB ) = tr( BA ) siempre que A y B sean matrices con una forma tal que existan ambos productos. Obtenemos
dónde
A veces se denomina matriz de dispersión y es definida positiva si existe un subconjunto de los datos que consiste en observaciones afínmente independientes (lo cual asumiremos).
Del teorema espectral del álgebra lineal se deduce que una matriz simétrica positiva definida S tiene una única raíz cuadrada simétrica positiva definida S 1/2 . Podemos utilizar nuevamente la "propiedad cíclica" de la traza para escribir
Sea B = S 1/2 Σ −1 S 1/2 . Entonces la expresión anterior se convierte en
La matriz definida positiva B se puede diagonalizar y luego resolver el problema de encontrar el valor de B que maximice
Dado que la traza de una matriz cuadrada es igual a la suma de los valores propios ( "traza y valores propios" ), la ecuación se reduce al problema de encontrar los valores propios λ 1 , ..., λ p que maximizan
Este es solo un problema de cálculo y obtenemos λ i = n para todo i. Por lo tanto, supongamos que Q es la matriz de vectores propios, entonces
es decir, n veces la matriz identidad p × p .
Por fin lo conseguimos
es decir, la "matriz de covarianza de muestra" p × p
es el estimador de máxima verosimilitud de la "matriz de covarianza de la población" Σ. En este punto, estamos utilizando una X mayúscula en lugar de una x minúscula porque la consideramos "como un estimador en lugar de como una estimación", es decir, como algo aleatorio cuya distribución de probabilidad nos resultaría útil conocer. Se puede demostrar que la matriz aleatoria S tiene una distribución Wishart con n − 1 grados de libertad. [5] Es decir:
Se puede realizar una derivación alternativa del estimador de máxima verosimilitud mediante fórmulas de cálculo matricial (véase también diferencial de un determinante y diferencial de la matriz inversa ). También se verifica el hecho mencionado anteriormente sobre la estimación de máxima verosimilitud de la media. Reescriba la verosimilitud en forma logarítmica utilizando el truco de la traza:
El diferencial de esta verosimilitud logarítmica es
Naturalmente, se descompone en la parte relacionada con la estimación de la media y la parte relacionada con la estimación de la varianza. La condición de primer orden para el máximo, , se satisface cuando los términos que se multiplican por y son idénticos a cero. Suponiendo que (la estimación de máxima verosimilitud de) no es singular, la condición de primer orden para la estimación del vector de media es
lo que conduce al estimador de máxima verosimilitud
Esto nos permite simplificar
como se definió anteriormente. Entonces los términos que involucran pueden combinarse como
La condición de primer orden se cumplirá cuando el término entre corchetes sea cero (valor matricial). Al multiplicar previamente este último por y dividir por se obtiene
lo cual por supuesto coincide con la derivación canónica dada anteriormente.
Dwyer [6] señala que la descomposición en dos términos como aparece arriba es "innecesaria" y deriva el estimador en dos líneas de trabajo. Obsérvese que puede no ser trivial demostrar que dicho estimador derivado es el único maximizador global de la función de verosimilitud.
Dada una muestra de n observaciones independientes x 1 ,..., x n de una variable aleatoria gaussiana p -dimensional de media cero X con covarianza R , el estimador de máxima verosimilitud de R viene dado por
El parámetro pertenece al conjunto de matrices definidas positivas , que es una variedad de Riemann , no un espacio vectorial , por lo tanto, las nociones habituales de espacio vectorial de expectativa , es decir, " ", y sesgo del estimador deben generalizarse a las variedades para dar sentido al problema de la estimación de la matriz de covarianza. Esto se puede hacer definiendo la expectativa de un estimador con valor de variedad con respecto al punto con valor de variedad como
dónde
son el mapa exponencial y el mapa exponencial inverso, respectivamente, "exp" y "log" denotan la matriz exponencial ordinaria y el logaritmo matricial , y E[·] es el operador de expectativa ordinaria definido en un espacio vectorial, en este caso el espacio tangente de la variedad. [1]
El campo vectorial de sesgo intrínseco del estimador SCM se define como
El sesgo intrínseco del estimador viene dado por .
Para variables aleatorias gaussianas complejas , se puede demostrar [1] que este campo vectorial de sesgo es igual a
dónde
y ψ(·) es la función digamma . El sesgo intrínseco de la matriz de covarianza de la muestra es igual a
y el SCM es asintóticamente imparcial cuando n → ∞.
De manera similar, la ineficiencia intrínseca de la matriz de covarianza de la muestra depende de la curvatura riemanniana del espacio de matrices definidas positivas.
Si el tamaño de la muestra n es pequeño y el número de variables consideradas p es grande, los estimadores empíricos anteriores de covarianza y correlación son muy inestables. En concreto, es posible proporcionar estimadores que mejoren considerablemente la estimación de máxima verosimilitud en términos de error cuadrático medio. Además, para n < p (el número de observaciones es menor que el número de variables aleatorias), la estimación empírica de la matriz de covarianza se vuelve singular , es decir, no se puede invertir para calcular la matriz de precisión .
Como alternativa, se han sugerido muchos métodos para mejorar la estimación de la matriz de covarianza. Todos estos enfoques se basan en el concepto de contracción, que está implícito en los métodos bayesianos y en los métodos de máxima verosimilitud penalizada , y es explícito en el enfoque de contracción de tipo Stein .
Una versión simple de un estimador de contracción de la matriz de covarianza está representada por el estimador de contracción de Ledoit-Wolf. [7] [8] [9] [10] Se considera una combinación convexa del estimador empírico ( ) con algún objetivo elegido adecuado ( ), por ejemplo, la matriz diagonal. Posteriormente, se selecciona el parámetro de mezcla ( ) para maximizar la precisión esperada del estimador contraído. Esto se puede hacer mediante validación cruzada o utilizando una estimación analítica de la intensidad de la contracción. Se puede demostrar que el estimador regularizado resultante ( ) supera al estimador de máxima verosimilitud para muestras pequeñas. Para muestras grandes, la intensidad de la contracción se reducirá a cero, por lo tanto, en este caso, el estimador de contracción será idéntico al estimador empírico. Aparte de una mayor eficiencia, la estimación de la contracción tiene la ventaja adicional de que siempre es positiva definida y bien condicionada.
Se han propuesto varios objetivos de contracción:
El estimador de contracción se puede generalizar a un estimador de contracción de múltiples objetivos que utiliza varios objetivos simultáneamente. [11] El software para calcular un estimador de contracción de covarianza está disponible en R (paquetes corpcor [12] y ShrinkCovMat [13] ), en Python ( biblioteca scikit-learn [1]) y en MATLAB . [14]
{{citation}}
: CS1 maint: location missing publisher (link){{citation}}
: CS1 maint: location missing publisher (link)