Matriz de proyección

En estadística , la matriz de proyección , ^[1] a veces también llamada matriz de influencia ^[2] o matriz de sombrero , asigna el vector de valores de respuesta (valores de la variable dependiente) al vector de valores ajustados (o valores predichos). Describe la influencia que tiene cada valor de respuesta en cada valor ajustado. ^[3]^[4] Los elementos diagonales de la matriz de proyección son los apalancamientos , que describen la influencia que tiene cada valor de respuesta en el valor ajustado para esa misma observación. $(\mathbf {P} )$ $(\mathbf {H} )$

Definición

Si el vector de valores de respuesta se denota por y el vector de valores ajustados por , $\mathbf {y}$ $\mathbf {\hat {y}}$

\mathbf {\hat {y}} =\mathbf {P} \mathbf {y} .

Como generalmente se pronuncia "y-hat", la matriz de proyección también se llama matriz hat porque "pone un sombrero " . $\mathbf {\hat {y}}$ $\mathbf {P}$ $\mathbf {y}$

Solicitud de residuos

La fórmula para el vector de residuos también se puede expresar de forma compacta utilizando la matriz de proyección: $\mathbf {r}$

\mathbf {r} =\mathbf {y} -\mathbf {\hat {y}} =\mathbf {y} -\mathbf {P} \mathbf {y} =\left(\mathbf {I} -\mathbf {P} \right)\mathbf {y} .

donde es la matriz identidad . A veces, a esta matriz se la denomina matriz generadora de residuos o matriz aniquiladora . $\mathbf {yo}$ $\mathbf {M} :=\mathbf {Yo} -\mathbf {P}$

La matriz de covarianza de los residuos , por propagación de errores , es igual a $\mathbf {r}$

\mathbf {\Sigma } _{\mathbf {r} }=\left(\mathbf {I} -\mathbf {P} \right)^{\textsf {T}}\mathbf {\Sigma } \left(\mathbf {I} -\mathbf {P} \right)

donde es la matriz de covarianza del vector de error (y por extensión, también del vector de respuesta). Para el caso de modelos lineales con errores independientes e idénticamente distribuidos en los que , esto se reduce a: ^[3] $\mathbf {\Sigma}$ $\mathbf {\Sigma } =\sigma ^{2}\mathbf {I}$

\mathbf {\Sigma } _{\mathbf {r} }=\left(\mathbf {I} -\mathbf {P} \right)\sigma ^{2}

Intuición

De la figura se desprende claramente que el punto más cercano del vector al espacio columna de , es , y es uno en el que podemos trazar una línea ortogonal al espacio columna de . Un vector que es ortogonal al espacio columna de una matriz está en el espacio nulo de la matriz transpuesta, por lo que $\mathbf {b}$ $\mathbf {A}$ $\mathbf {Hacha}$ $\mathbf {A}$

\mathbf {A} ^{\textsf {T}}(\mathbf {b} -\mathbf {Ax} )=0

A partir de ahí, uno reordena, así

{\begin{aligned}&&\mathbf {A} ^{\textsf {T}}\mathbf {b} &-\mathbf {A} ^{\textsf {T}}\mathbf {Ax} =0 \\\Flecha derecha &&\mathbf {A} ^{\textsf {T}}\mathbf {b} &=\mathbf {A} ^{\textsf {T}}\mathbf {Ax} \\\Rightarrow &&\mathbf {x} &=\left(\mathbf {A} ^{\textsf {T}}\mathbf {A} \right)^ {-1}\mathbf {A} ^{\textsf {T}}\mathbf {b} \end{aligned}}

Por lo tanto, dado que está en el espacio de columnas de , la matriz de proyección, que se asigna a es simplemente , o . $\mathbf {Hacha}$ $\mathbf {A}$ $\mathbf {b}$ $\mathbf {x}$ $\mathbf {A}$ $\mathbf {A} \left(\mathbf {A} ^{\textsf {T}}\mathbf {A} \right)^{-1}\mathbf {A} ^{\textsf {T}}$

Modelo lineal

Supongamos que deseamos estimar un modelo lineal mediante mínimos cuadrados lineales. El modelo puede escribirse como

\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},

donde es una matriz de variables explicativas (la matriz de diseño ), β es un vector de parámetros desconocidos a estimar y ε es el vector de error. $\mathbf {X}$

Muchos tipos de modelos y técnicas están sujetos a esta formulación. Algunos ejemplos son los mínimos cuadrados lineales , los splines de suavizado , los splines de regresión , la regresión local , la regresión kernel y el filtrado lineal .

Mínimos cuadrados ordinarios

Cuando los pesos de cada observación son idénticos y los errores no están correlacionados, los parámetros estimados son

{\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}\mathbf {y} ,

Por lo tanto, los valores ajustados son

{\hat {\mathbf {y} }}=\mathbf {X} {\hat {\boldsymbol {\beta }}}=\mathbf {X} \left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}\mathbf {y}.

Por lo tanto, la matriz de proyección (y la matriz de sombrero) está dada por

\mathbf {P} :=\mathbf {X} \izquierda(\mathbf {X} ^{\textsf {T}}\mathbf {X} \derecha)^{-1}\mathbf {X} ^{\textsf {T}}.

Mínimos cuadrados ponderados y generalizados

Lo anterior se puede generalizar a los casos en los que los pesos no son idénticos y/o los errores están correlacionados. Supongamos que la matriz de covarianza de los errores es Σ . Entonces, como

{\hat {\mathbf {\beta } }}_{\text{GLS}}=\left(\mathbf {X} ^{\textsf {T}}\mathbf {\Sigma } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}\mathbf {\Sigma } ^{-1}\mathbf {y}

La matriz del sombrero es así

\mathbf {H} =\mathbf {X} \izquierda(\mathbf {X} ^{\textsf {T}}\mathbf {\Sigma } ^{-1}\mathbf {X} \derecha)^{-1}\mathbf {X} ^{\textsf {T}}\mathbf {\Sigma } ^{-1}

y nuevamente se puede ver que , aunque ahora ya no es simétrico. $H^{2}=H\cdot H=H$

Propiedades

La matriz de proyección tiene varias propiedades algebraicas útiles. ^[5]^[6] En el lenguaje del álgebra lineal , la matriz de proyección es la proyección ortogonal sobre el espacio columna de la matriz de diseño . ^[4] (Tenga en cuenta que es la pseudoinversa de X ). Algunos hechos de la matriz de proyección en este contexto se resumen a continuación: ^[4] $\mathbf {X}$ $\left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}$

$\mathbf {u} =(\mathbf {I} -\mathbf {P} )\mathbf {y} ,$ y $\mathbf {u} =\mathbf {y} -\mathbf {P} \mathbf {y} \perp \mathbf {X} .$
$\mathbf {P}$ es simétrico, y también lo es . $\mathbf {M} :=\mathbf {I} -\mathbf {P}$
$\mathbf {P}$ es idempotente: , y también lo es . $\mathbf {P} ^{2}=\mathbf {P}$ $\mathbf {M}$
Si es una matriz n × r con , entonces $\mathbf {X}$ $\operatorname {rank} (\mathbf {X} )=r$ $\operatorname {rank} (\mathbf {P} )=r$
Los valores propios de consisten en r unos y n − r ceros, mientras que los valores propios de consisten en n − r unos y r ceros. ^[7] $\mathbf {P}$ $\mathbf {M}$
$\mathbf {X}$ es invariante bajo : por lo tanto . $\mathbf {P}$ $\mathbf {PX} =\mathbf {X} ,$ $\left(\mathbf {I} -\mathbf {P} \right)\mathbf {X} =\mathbf {0}$
$\left(\mathbf {I} -\mathbf {P} \right)\mathbf {P} =\mathbf {P} \left(\mathbf {I} -\mathbf {P} \right)=\mathbf {0} .$
$\mathbf {P}$ es único para ciertos subespacios.

La matriz de proyección correspondiente a un modelo lineal es simétrica e idempotente , es decir, . Sin embargo, esto no siempre es así; en el suavizado de diagramas de dispersión ponderados localmente (LOESS) , por ejemplo, la matriz de sombrero no es, en general, ni simétrica ni idempotente. $\mathbf {P} ^{2}=\mathbf {P}$

Para los modelos lineales , la traza de la matriz de proyección es igual al rango de , que es el número de parámetros independientes del modelo lineal. ^[8] Para otros modelos como LOESS que todavía son lineales en las observaciones , la matriz de proyección se puede utilizar para definir los grados de libertad efectivos del modelo. $\mathbf {X}$ $\mathbf {y}$

Las aplicaciones prácticas de la matriz de proyección en el análisis de regresión incluyen el apalancamiento y la distancia de Cook , que tienen como objetivo identificar observaciones influyentes , es decir, observaciones que tienen un gran efecto en los resultados de una regresión.

Fórmula por bloques

Supongamos que la matriz de diseño se puede descomponer por columnas como . Definamos el operador de proyección o sombrero como . De manera similar, definamos el operador residual como . Entonces la matriz de proyección se puede descomponer de la siguiente manera: ^[9] $\mathbf {X}$ $\mathbf {X} ={\begin{bmatrix}\mathbf {A} &\mathbf {B} \end{bmatrix}}$ $\mathbf {P} [\mathbf {X} ]:=\mathbf {X} \left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}$ $\mathbf {M} [\mathbf {X} ]:=\mathbf {I} -\mathbf {P} [\mathbf {X} ]$

\mathbf {P} [\mathbf {X} ]=\mathbf {P} [\mathbf {A} ]+\mathbf {P} {\big [}\mathbf {M} [\mathbf {A} ]\mathbf {B} {\big ]},

donde, por ejemplo, y . Hay varias aplicaciones de esta descomposición. En la aplicación clásica , es una columna de todos unos, que permite analizar los efectos de añadir un término de intersección a una regresión. Otro uso es en el modelo de efectos fijos , donde es una matriz dispersa grande de las variables ficticias para los términos de efectos fijos. Se puede utilizar esta partición para calcular la matriz hat de sin formar explícitamente la matriz , que podría ser demasiado grande para caber en la memoria de la computadora. $\mathbf {P} [\mathbf {A} ]=\mathbf {A} \left(\mathbf {A} ^{\textsf {T}}\mathbf {A} \right)^{-1}\mathbf {A} ^{\textsf {T}}$ $\mathbf {M} [\mathbf {A} ]=\mathbf {I} -\mathbf {P} [\mathbf {A} ]$ $\mathbf {A}$ $\mathbf {A}$ $\mathbf {X}$ $\mathbf {X}$

Historia

La matriz de sombrero fue introducida por John Wilder en 1972. Un artículo de Hoaglin, DC y Welsch, RE (1978) presenta las propiedades de la matriz y también muchos ejemplos de su aplicación.

Véase también

Referencias

^ Basilevsky, Alexander (2005). Álgebra matricial aplicada a las ciencias estadísticas. Dover. pp. 160–176. ISBN 0-486-44538-0.
^ "Asimilación de datos: diagnóstico de la influencia de la observación en un sistema de asimilación de datos" (PDF) . Archivado desde el original (PDF) el 2014-09-03.
^ ab Hoaglin, David C.; Welsch, Roy E. (febrero de 1978). "La matriz Hat en regresión y ANOVA" (PDF) . The American Statistician . 32 (1): 17–22. doi :10.2307/2683469. hdl : 1721.1/1920 . JSTOR 2683469.
^ abc David A. Freedman (2009). Modelos estadísticos: teoría y práctica . Cambridge University Press .
^ Gans, P. (1992). Ajuste de datos en las ciencias químicas . Wiley. ISBN 0-471-93412-7.
^ Draper, NR; Smith, H. (1998). Análisis de regresión aplicado . Wiley. ISBN 0-471-17082-8.
^ Amemiya, Takeshi (1985). Econometría avanzada . Cambridge: Harvard University Press. pp. 460–461. ISBN 0-674-00560-0.
^ "Prueba de que la traza de la matriz 'sombrero' en la regresión lineal es el rango de X". Stack Exchange . 13 de abril de 2017.
^ Rao, C. Radhakrishna; Toutenburg, Helge; Shalabh; Heumann, cristiano (2008). Modelos lineales y generalizaciones (3ª ed.). Berlín: Springer. pag. 323.ISBN 978-3-540-74226-5.