Matriz de proyección

En estadística , la matriz de proyección , ^[1] a veces también llamada matriz de influencia ^[2] o matriz sombrero , asigna el vector de valores de respuesta (valores de variables dependientes) al vector de valores ajustados (o valores predichos). Describe la influencia que cada valor de respuesta tiene sobre cada valor ajustado. ^[3]^[4] Los elementos diagonales de la matriz de proyección son los apalancamientos , que describen la influencia que cada valor de respuesta tiene en el valor ajustado para esa misma observación. $(\mathbf {P} )$ $(\mathbf {H} )$

Definición

Si el vector de valores de respuesta se denota por y el vector de valores ajustados por , $\mathbf {y}$ $\mathbf {\sombrero {y}}$

\mathbf {\hat {y}} =\mathbf {P} \mathbf {y} .

Como suele pronunciarse "y-hat", la matriz de proyección también se denomina matriz de sombrero porque "se pone un sombrero " . $\mathbf {\sombrero {y}}$ $\mathbf {P}$ $\mathbf {y}$

Solicitud de residuos

La fórmula del vector de residuos también se puede expresar de forma compacta utilizando la matriz de proyección: $\mathbf {r}$

\mathbf {r} =\mathbf {y} -\mathbf {\hat {y}} =\mathbf {y} -\mathbf {P} \mathbf {y} =\left(\mathbf {I} -\mathbf {P} \right)\mathbf {y}.

¿Dónde está la matriz identidad ? A veces se hace referencia a la matriz como matriz creadora residual o matriz aniquiladora . $\mathbf {I}$ $\mathbf {M} :=\mathbf {I} -\mathbf {P}$

La matriz de covarianza de los residuos , por propagación del error , es igual $\mathbf {r}$

\mathbf {\Sigma } _{\mathbf {r} }=\left(\mathbf {I} -\mathbf {P} \right)^{\textsf {T}}\mathbf {\Sigma } \ izquierda(\mathbf {I} -\mathbf {P} \right)

donde es la matriz de covarianza del vector de error (y por extensión, también del vector de respuesta). Para el caso de modelos lineales con errores independientes e idénticamente distribuidos en los que , esto se reduce a: ^[3] $\mathbf {\Sigma }$ $\mathbf {\Sigma } =\sigma ^{2}\mathbf {I}$

\mathbf {\Sigma } _{\mathbf {r} }=\left(\mathbf {I} -\mathbf {P} \right)\sigma ^{2}

Intuición

De la figura, queda claro que el punto más cercano desde el vector al espacio columna de , es , y es aquel en el que podemos dibujar una línea ortogonal al espacio columna de . Un vector que es ortogonal al espacio columna de una matriz está en el espacio nulo de la transpuesta de la matriz, por lo que $\mathbf {b}$ $\mathbf {A}$ $\mathbf {Hacha}$ $\mathbf {A}$

\mathbf {A} ^{\textsf {T}}(\mathbf {b} -\mathbf {Ax} )=0

A partir de ahí, uno reorganiza, así

{\begin{aligned}&&\mathbf {A} ^{\textsf {T}}\mathbf {b} &-\mathbf {A} ^{\textsf {T}}\mathbf {Ax} =0 \\\Rightarrow &&\mathbf {A} ^{\textsf {T}}\mathbf {b} &=\mathbf {A} ^{\textsf {T}}\mathbf {Ax} \\\Rightarrow &&\mathbf {x} &=\left(\mathbf {A} ^{\textsf {T}}\mathbf {A} \right)^{-1}\mathbf {A} ^{\textsf {T}}\mathbf { b} \end{alineado}}

Por lo tanto, dado que está en el espacio de columnas de , la matriz de proyección, que se asigna a es solo , o . $\mathbf {Hacha}$ $\mathbf {A}$ $\mathbf {b}$ $\mathbf {x}$ $\mathbf {A}$ $\mathbf {A} \left(\mathbf {A} ^{\textsf {T}}\mathbf {A} \right)^{-1}\mathbf {A} ^{\textsf {T}}$

Modelo lineal

Supongamos que deseamos estimar un modelo lineal utilizando mínimos cuadrados lineales. El modelo se puede escribir como

\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},

donde es una matriz de variables explicativas (la matriz de diseño ), β es un vector de parámetros desconocidos a estimar y ε es el vector de error. $\mathbf {X}$

Muchos tipos de modelos y técnicas están sujetos a esta formulación. Algunos ejemplos son mínimos cuadrados lineales , splines de suavizado , splines de regresión , regresión local , regresión kernel y filtrado lineal .

Mínimos cuadrados ordinarios

Cuando los pesos para cada observación son idénticos y los errores no están correlacionados, los parámetros estimados son

{\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}\mathbf {y},

entonces los valores ajustados son

{\hat {\mathbf {y} }}=\mathbf {X} {\hat {\boldsymbol {\beta }}}=\mathbf {X} \left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}\mathbf {y} .

Por lo tanto, la matriz de proyección (y la matriz hat) viene dada por

\mathbf {P} :=\mathbf {X} \left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^ {\textsf {T}}.

Mínimos cuadrados ponderados y generalizados

Lo anterior puede generalizarse a los casos en los que los pesos no son idénticos y/o los errores están correlacionados. Supongamos que la matriz de covarianza de los errores es Σ . Entonces desde

{\hat {\mathbf {\beta } }}_{\text{GLS}}=\left(\mathbf {X} ^{\textsf {T}}\mathbf {\Sigma } ^{-1 }\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}\mathbf {\Sigma } ^{-1}\mathbf {y}

la matriz del sombrero es así

\mathbf {H} =\mathbf {X} \left(\mathbf {X} ^{\textsf {T}}\mathbf {\Sigma } ^{-1}\mathbf {X} \right)^ {-1}\mathbf {X} ^{\textsf {T}}\mathbf {\Sigma } ^{-1}

y nuevamente se puede ver que , aunque ahora ya no es simétrico. $H^{2}=H\cdot H=H$

Propiedades

La matriz de proyección tiene varias propiedades algebraicas útiles. ^[5]^[6] En el lenguaje del álgebra lineal , la matriz de proyección es la proyección ortogonal sobre el espacio columna de la matriz de diseño . ^[4] (Tenga en cuenta que es la pseudoinversa de X. ) Algunos hechos de la matriz de proyección en este entorno se resumen a continuación: ^[4] $\mathbf {X}$ $\left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}$

$\mathbf {u} =(\mathbf {I} -\mathbf {P} )\mathbf {y} ,$ y $\mathbf {u} =\mathbf {y} -\mathbf {P} \mathbf {y} \perp \mathbf {X} .$
$\mathbf {P}$ es simétrico, y también lo es . $\mathbf {M} :=\mathbf {I} -\mathbf {P}$
$\mathbf {P}$ es idempotente: , y también lo es . $\mathbf {P} ^{2}=\mathbf {P}$ $\mathbf {M}$
Si es una matriz n × r con , entonces $\mathbf {X}$ $\operatorname {rank} (\mathbf {X} )=r$ $\operatorname {rank} (\mathbf {P} )=r$
Los valores propios de constan de r unos y n - r ceros, mientras que los valores propios de constan de n - r unos y r ceros. ^[7] $\mathbf {P}$ $\mathbf {M}$
$\mathbf {X}$ es invariante bajo : por lo tanto . $\mathbf {P}$ $\mathbf {PX} =\mathbf {X} ,$ $\left(\mathbf {I} -\mathbf {P} \right)\mathbf {X} =\mathbf {0}$
$\left(\mathbf {I} -\mathbf {P} \right)\mathbf {P} =\mathbf {P} \left(\mathbf {I} -\mathbf {P} \right)=\mathbf {0} .$
$\mathbf {P}$ es único para ciertos subespacios.

La matriz de proyección correspondiente a un modelo lineal es simétrica e idempotente , es decir ,. Sin embargo, este no es siempre el caso; en el suavizado de diagramas de dispersión ponderados localmente (LOESS) , por ejemplo, la matriz hat en general no es simétrica ni idempotente. $\mathbf {P} ^{2}=\mathbf {P}$

Para los modelos lineales , la traza de la matriz de proyección es igual al rango de , que es el número de parámetros independientes del modelo lineal. ^[8] Para otros modelos como LOESS que aún son lineales en las observaciones , la matriz de proyección se puede utilizar para definir los grados de libertad efectivos del modelo. $\mathbf {X}$ $\mathbf {y}$

Las aplicaciones prácticas de la matriz de proyección en el análisis de regresión incluyen el apalancamiento y la distancia de Cook , que se ocupan de identificar observaciones influyentes , es decir, observaciones que tienen un gran efecto en los resultados de una regresión.

Fórmula en bloque

Supongamos que la matriz de diseño se puede descomponer en columnas como . Defina el operador de sombrero o proyección como . De manera similar, defina el operador residual como . Entonces la matriz de proyección se puede descomponer de la siguiente manera: ^[9] $\mathbf {X}$ $\mathbf {X} ={\begin{bmatrix}\mathbf {A} &\mathbf {B} \end{bmatrix}}$ $\mathbf {P} [\mathbf {X} ]:=\mathbf {X} \left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}$ $\mathbf {M} [\mathbf {X} ]:=\mathbf {I} -\mathbf {P} [\mathbf {X} ]$

\mathbf {P} [\mathbf {X} ]=\mathbf {P} [\mathbf {A} ]+\mathbf {P} {\big [}\mathbf {M} [\mathbf {A} ]\mathbf {B} {\big ]},

donde, por ejemplo, y . Hay varias aplicaciones de tal descomposición. En la aplicación clásica hay una columna de todos unos, que permite analizar los efectos de agregar un término de intersección a una regresión. Otro uso es en el modelo de efectos fijos , donde hay una matriz dispersa y grande de variables ficticias para los términos de efectos fijos. Se puede utilizar esta partición para calcular la matriz hat sin formar explícitamente la matriz , que podría ser demasiado grande para caber en la memoria de la computadora. $\mathbf {P} [\mathbf {A} ]=\mathbf {A} \left(\mathbf {A} ^{\textsf {T}}\mathbf {A} \right)^{-1}\mathbf {A} ^{\textsf {T}}$ $\mathbf {M} [\mathbf {A} ]=\mathbf {I} -\mathbf {P} [\mathbf {A} ]$ $\mathbf {A}$ $\mathbf {A}$ $\mathbf {X}$ $\mathbf {X}$

Historia

La matriz hat fue introducida por John Wilder en 1972. Un artículo de Hoaglin, DC y Welsch, RE (1978) da las propiedades de la matriz y también muchos ejemplos de su aplicación.

Ver también

Referencias

^ Basilevsky, Alejandro (2005). Álgebra matricial aplicada en las ciencias estadísticas. Dover. págs. 160-176. ISBN 0-486-44538-0.
^ "Asimilación de datos: la observación influye en el diagnóstico de un sistema de asimilación de datos" (PDF) . Archivado desde el original (PDF) el 3 de septiembre de 2014.
^ ab Hoaglin, David C.; Welsch, Roy E. (febrero de 1978). "The Hat Matrix en regresión y ANOVA" (PDF) . El estadístico estadounidense . 32 (1): 17–22. doi :10.2307/2683469. hdl : 1721.1/1920 . JSTOR 2683469.
^ a b C David A. Freedman (2009). Modelos estadísticos: teoría y práctica . Prensa de la Universidad de Cambridge .
^ Gans, P. (1992). Ajuste de datos en las ciencias químicas . Wiley. ISBN 0-471-93412-7.
^ Pañero, NR; Smith, H. (1998). Análisis de regresión aplicada . Wiley. ISBN 0-471-17082-8.
^ Amemiya, Takeshi (1985). Econometría avanzada . Cambridge: Prensa de la Universidad de Harvard. págs. 460–461. ISBN 0-674-00560-0.
^ "Prueba de que el rastro de la matriz 'sombrero' en regresión lineal tiene el rango X". Intercambio de pila . 13 de abril de 2017.
^ Rao, C. Radhakrishna; Toutenburg, Helge; Shalabh; Heumann, cristiano (2008). Modelos lineales y generalizaciones (3ª ed.). Berlín: Springer. pag. 323.ISBN 978-3-540-74226-5.