Varianza de la media y las respuestas previstas.

En regresión , la respuesta media (o respuesta esperada ) y la respuesta prevista , también conocidas como resultado medio (o resultado esperado ) y resultado previsto , son valores de la variable dependiente calculados a partir de los parámetros de regresión y un valor dado de la variable independiente. Los valores de estas dos respuestas son los mismos, pero sus varianzas calculadas son diferentes. El concepto es una generalización de la distinción entre el error estándar de la media y la desviación estándar muestral .

Antecedentes: regresión lineal simple

En regresión lineal simple (es decir, ajuste en línea recta con errores sólo en la coordenada y), el modelo es

y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}\,

donde es la variable respuesta , es la variable explicativa , ε _i es el error aleatorio y y son parámetros. El valor de respuesta medio y previsto para un valor explicativo dado, x _d , viene dado por $y_{i}$ $x_{i}$ $\alpha$ $\beta$

{\hat {y}}_{d}={\hat {\alpha }}+{\hat {\beta }}x_{d},

mientras que la respuesta real sería

y_{d}=\alpha +\beta x_{d}+\varepsilon _{d}\,

Las expresiones para los valores y varianzas de y se dan en regresión lineal . ${\hat {\alpha }}$ ${\hat {\beta }}$

Diferencia

Varianza de la respuesta media

Dado que los datos en este contexto se definen como pares ( x , y ) para cada observación, la respuesta media en un valor dado de x , digamos x _d , es una estimación de la media de los valores de y en la población en el punto x. valor de x _d , es decir . La varianza de la respuesta media está dada por ${\hat {E}}(y\mid x_{d})\equiv {\hat {y}}_{d}\!$

\operatorname {Var} \left({\hat {\alpha }}+{\hat {\beta }}x_{d}\right)=\operatorname {Var} \left({\hat {\alpha }}\right)+\left(\operatorname {Var} {\hat {\beta }}\right)x_{d}^{2}+2x_{d}\operatorname {Cov} \left({\hat {\alpha }},{\hat {\beta }}\right).

Esta expresión se puede simplificar a

\operatorname {Var} \left({\hat {\alpha }}+{\hat {\beta }}x_{d}\right)=\sigma ^{2}\left({\frac {1}{m}}+{\frac {\left(x_{d}-{\bar {x}}\right)^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}\right),

donde m es el número de puntos de datos.

Para demostrar esta simplificación, se puede hacer uso de la identidad

\sum (x_{i}-{\bar {x}})^{2}=\sum x_{i}^{2}-{\frac {1}{m}}\left(\sum x_{i}\right)^{2}.

Varianza de la respuesta prevista.

La distribución de respuesta prevista es la distribución prevista de los residuos en el punto dado x _d . Entonces la varianza está dada por

{\begin{aligned}\operatorname {Var} \left(y_{d}-\left[{\hat {\alpha }}+{\hat {\beta }}x_{d}\right]\right)&=\operatorname {Var} (y_{d})+\operatorname {Var} \left({\hat {\alpha }}+{\hat {\beta }}x_{d}\right)-2\operatorname {Cov} \left(y_{d},\left[{\hat {\alpha }}+{\hat {\beta }}x_{d}\right]\right)\\&=\operatorname {Var} (y_{d})+\operatorname {Var} \left({\hat {\alpha }}+{\hat {\beta }}x_{d}\right).\end{aligned}}

La segunda línea se deriva del hecho de que es cero porque el nuevo punto de predicción es independiente de los datos utilizados para ajustar el modelo. Además, el término se calculó anteriormente para la respuesta media. $\operatorname {Cov} \left(y_{d},\left[{\hat {\alpha }}+{\hat {\beta }}x_{d}\right]\right)$ $\operatorname {Var} \left({\hat {\alpha }}+{\hat {\beta }}x_{d}\right)$

Dado que (un parámetro fijo pero desconocido que se puede estimar), la varianza de la respuesta predicha viene dada por $\operatorname {Var} (y_{d})=\sigma ^{2}$

{\begin{aligned}\operatorname {Var} \left(y_{d}-\left[{\hat {\alpha }}+{\hat {\beta }}x_{d}\right]\right)&=\sigma ^{2}+\sigma ^{2}\left({\frac {1}{m}}+{\frac {\left(x_{d}-{\bar {x}}\right)^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}\right)\\[4pt]&=\sigma ^{2}\left(1+{\frac {1}{m}}+{\frac {(x_{d}-{\bar {x}})^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}\right).\end{aligned}}

Intervalos de confianza

Los intervalos de confianza se calculan como . Por tanto, el intervalo de confianza para la respuesta prevista es más amplio que el intervalo para la respuesta media. Esto se espera intuitivamente: la varianza de la población de valores no se reduce cuando se toma una muestra de ella, porque la variable aleatoria ε _i no disminuye, pero la varianza de la media de sí se reduce con un mayor muestreo, porque la varianza en y disminuye, por lo que la respuesta media (valor de respuesta previsto) se acerca a . $100(1-\alpha )\%$ $y_{d}\pm t_{{\frac {\alpha }{2}},m-n-1}{\sqrt {\operatorname {Var} }}$ $y$ $y$ ${\hat {\alpha }}$ ${\hat {\beta }}$ $\alpha +\beta x_{d}$

Esto es análogo a la diferencia entre la varianza de una población y la varianza de la media muestral de una población: la varianza de una población es un parámetro y no cambia, pero la varianza de la media muestral disminuye al aumentar el tamaño de la muestra.

Caso general

El caso general de regresión lineal se puede escribir como

y_{i}=\sum _{j=1}^{n}X_{ij}\beta _{j}+\varepsilon _{i}\,

Por lo tanto, dado que la expresión general para la varianza de la respuesta media es $y_{d}=\sum _{j=1}^{n}X_{dj}{\hat {\beta }}_{j}$

\operatorname {Var} \left(\sum _{j=1}^{n}X_{dj}{\hat {\beta }}_{j}\right)=\sum _{i=1}^{n}\sum _{j=1}^{n}X_{di}S_{ij}X_{dj},

donde S es la matriz de covarianza de los parámetros, dada por

\mathbf {S} =\sigma ^{2}\left(\mathbf {X^{\mathsf {T}}X} \right)^{-1}.

Ver también

Referencias

Draper, NR; Smith, H. (1998). Análisis de regresión aplicada (3ª ed.). Juan Wiley. ISBN 0-471-17082-8.