stringtranslate.com

Varianza de la media y las respuestas previstas.

En regresión , la respuesta media (o respuesta esperada ) y la respuesta prevista , también conocidas como resultado medio (o resultado esperado ) y resultado previsto , son valores de la variable dependiente calculados a partir de los parámetros de regresión y un valor dado de la variable independiente. Los valores de estas dos respuestas son los mismos, pero sus varianzas calculadas son diferentes. El concepto es una generalización de la distinción entre el error estándar de la media y la desviación estándar muestral .

Antecedentes: regresión lineal simple

En regresión lineal simple (es decir, ajuste en línea recta con errores sólo en la coordenada y), el modelo es

donde es la variable respuesta , es la variable explicativa , ε i es el error aleatorio y y son parámetros. El valor de respuesta medio y previsto para un valor explicativo dado, x d , viene dado por

mientras que la respuesta real sería

Las expresiones para los valores y varianzas de y se dan en regresión lineal .

Diferencia

Varianza de la respuesta media

Dado que los datos en este contexto se definen como pares ( x , y ) para cada observación, la respuesta media en un valor dado de x , digamos x d , es una estimación de la media de los valores de y en la población en el punto x. valor de x d , es decir . La varianza de la respuesta media está dada por

Esta expresión se puede simplificar a

donde m es el número de puntos de datos.

Para demostrar esta simplificación, se puede hacer uso de la identidad

Varianza de la respuesta prevista.

La distribución de respuesta prevista es la distribución prevista de los residuos en el punto dado x d . Entonces la varianza está dada por

La segunda línea se deriva del hecho de que es cero porque el nuevo punto de predicción es independiente de los datos utilizados para ajustar el modelo. Además, el término se calculó anteriormente para la respuesta media.

Dado que (un parámetro fijo pero desconocido que se puede estimar), la varianza de la respuesta predicha viene dada por

Intervalos de confianza

Los intervalos de confianza se calculan como . Por tanto, el intervalo de confianza para la respuesta prevista es más amplio que el intervalo para la respuesta media. Esto se espera intuitivamente: la varianza de la población de valores no se reduce cuando se toma una muestra de ella, porque la variable aleatoria ε i no disminuye, pero la varianza de la media de sí se reduce con un mayor muestreo, porque la varianza en y disminuye, por lo que la respuesta media (valor de respuesta previsto) se acerca a .

Esto es análogo a la diferencia entre la varianza de una población y la varianza de la media muestral de una población: la varianza de una población es un parámetro y no cambia, pero la varianza de la media muestral disminuye al aumentar el tamaño de la muestra.

Caso general

El caso general de regresión lineal se puede escribir como

Por lo tanto, dado que la expresión general para la varianza de la respuesta media es

donde S es la matriz de covarianza de los parámetros, dada por

Ver también

Referencias