Fracción de varianza no explicada

En estadística , la fracción de varianza no explicada ( FVU ) en el contexto de una tarea de regresión es la fracción de varianza del regresado (variable dependiente) Y que no puede explicarse, es decir, que no se predice correctamente, por las variables explicativas X.

Definición formal

Supongamos que se nos da una función de regresión que produce para cada una una estimación donde es el vector de las i ^-ésimas observaciones de todas las variables explicativas. ^[1]^{: 181} Definimos la fracción de varianza no explicada (FVU) como: $f$ $y_{i}$ ${\widehat {y}}_{i}=f(x_{i})$ $x_{i}$

{\begin{aligned}{\text{FVU}}&={{\text{VAR}}_{\text{err}} \over {\text{VAR}}_{\text{tot}}}={{\text{SS}}_{\text{err}}/N \over {\text{SS}}_{\text{tot}}/N}={{\text{SS}}_{\text{err}} \over {\text{SS}}_{\text{tot}}}\left(=1-{{\text{SS}}_{\text{reg}} \over {\text{SS}}_{\text{tot}}},{\text{ only true in some cases such as linear regression}}\right)\\[6pt]&=1-R^{2}\end{aligned}}

donde R ² es el coeficiente de determinación y VAR _err y VAR _tot son la varianza de los residuos y la varianza muestral de la variable dependiente. SS _err (la suma de los cuadrados de los errores de predicción, equivalente a la suma de los cuadrados de los residuos ), SS _tot (la suma total de los cuadrados ) y SS _reg (la suma de los cuadrados de la regresión, equivalente a la suma explicada de los cuadrados ) se dan por

{\begin{aligned}{\text{SS}}_{\text{err}}&=\sum _{i=1}^{N}\;(y_{i}-{\widehat {y}}_{i})^{2}\\{\text{SS}}_{\text{tot}}&=\sum _{i=1}^{N}\;(y_{i}-{\bar {y}})^{2}\\{\text{SS}}_{\text{reg}}&=\sum _{i=1}^{N}\;({\widehat {y}}_{i}-{\bar {y}})^{2}{\text{ and}}\\{\bar {y}}&={\frac {1}{N}}\sum _{i=1}^{N}\;y_{i}.\end{aligned}}

Alternativamente, la fracción de varianza no explicada se puede definir de la siguiente manera:

{\text{FVU}}={\frac {\operatorname {MSE} (f)}{\operatorname {var} [Y]}}

donde MSE( f ) es el error cuadrático medio de la función de regresión ƒ .

Explicación

Es útil considerar la segunda definición para comprender la FVU. Cuando intentamos predecir Y , la función de regresión más ingenua que podemos pensar es la función constante que predice la media de Y , es decir, . De ello se deduce que el MSE de esta función es igual a la varianza de Y ; es decir, SS _err = SS _tot y SS _reg = 0. En este caso, no se puede explicar ninguna variación en Y y la FVU tiene entonces su valor máximo de 1. $f(x_{i})={\bar {y}}$

En términos más generales, la FVU será 1 si las variables explicativas X no nos dicen nada sobre Y en el sentido de que los valores predichos de Y no covarían con Y . Pero a medida que la predicción mejora y el MSE se puede reducir, la FVU disminuye. En el caso de una predicción perfecta donde para todos los i , el MSE es 0, SS _err = 0, SS _reg = SS _tot y la FVU es 0. ${\hat {y}}_{i}=y_{i}$

Véase también

Referencias

^ Achen, C. H. (1990). ""¿Qué explica la "varianza explicada"?: Respuesta". Análisis político . 2 (1): 173–184. doi :10.1093/pan/2.1.173.