Variación explicada

En estadística , la variación explicada mide la proporción en la que un modelo matemático explica la variación ( dispersión ) de un conjunto de datos determinado. A menudo, la variación se cuantifica como varianza ; en ese caso, se puede utilizar el término más específico de varianza explicada .

La parte complementaria de la variación total se denomina variación no explicada o residual ; de igual modo, cuando se habla de varianza como tal, se habla de varianza no explicada o residual .

Definición en términos de ganancia de información

Ganancia de información mediante un mejor modelado

Siguiendo a Kent (1983), ^[1] utilizamos la información de Fraser (Fraser 1965) ^[2]

F(\theta )=\int {\textrm {d}}r\,g(r)\,\ln f(r;\theta )

donde es la densidad de probabilidad de una variable aleatoria , y con ( ) son dos familias de modelos paramétricos. La familia de modelos 0 es la más simple, con un espacio de parámetros restringido . $g(r)$ $R\,$ $f(r;\theta )\,$ $\theta \in \Theta _{i}$ $i=0,1\,$ $\Theta _{0}\subset \Theta _{1}$

Los parámetros se determinan mediante estimación de máxima verosimilitud .

\theta _{i}=\operatorname {argmax} _{\theta \in \Theta _{i}}F(\theta ).

La ganancia de información del modelo 1 sobre el modelo 0 se escribe como

\Gamma (\theta _{1}:\theta _{0})=2[F(\theta _{1})-F(\theta _{0})]\,

donde se incluye un factor de 2 por conveniencia. Γ siempre es no negativo; mide hasta qué punto el mejor modelo de la familia 1 es mejor que el mejor modelo de la familia 0 para explicar g ( r ).

Ganancia de información mediante un modelo condicional

Supongamos una variable aleatoria bidimensional donde X se considerará como variable explicativa e Y como variable dependiente. Los modelos de la familia 1 "explican" Y en términos de X , $R=(X,Y)$

f(y\mid x;\theta )

mientras que en la familia 0, se supone que X e Y son independientes. Definimos la aleatoriedad de Y por , y la aleatoriedad de Y , dado X , por . Entonces, $D(Y)=\exp[-2F(\theta _{0})]$ $D(Y\mid X)=\exp[-2F(\theta _{1})]$

\rho _{C}^{2}=1-D(Y\mid X)/D(Y)

puede interpretarse como la proporción de la dispersión de datos que se "explica" por X.

Casos especiales y uso generalizado

Regresión lineal

La fracción de varianza no explicada es un concepto establecido en el contexto de la regresión lineal . La definición habitual del coeficiente de determinación se basa en el concepto fundamental de varianza explicada.

Coeficiente de correlación como medida de varianza explicada

Sea X un vector aleatorio e Y una variable aleatoria que se modela mediante una distribución normal con centro . En este caso, la proporción de variación explicada derivada anteriormente es igual al coeficiente de correlación al cuadrado . $\mu =\Psi ^{\textrm {T}}X$ $\rho _{C}^{2}$ $R^{2}$

Ténganse en cuenta las fuertes suposiciones del modelo: el centro de la distribución Y debe ser una función lineal de X y, para cualquier x dada , la distribución Y debe ser normal. En otras situaciones, generalmente no está justificado interpretarlo como proporción de la varianza explicada. $R^{2}$

En el análisis de componentes principales

La varianza explicada se utiliza de manera rutinaria en el análisis de componentes principales . La relación con la ganancia de información de Fraser-Kent aún está por aclarar.

Crítica

Como la fracción de "varianza explicada" es igual al cuadrado del coeficiente de correlación , comparte todas las desventajas de este último: refleja no sólo la calidad de la regresión, sino también la distribución de las variables independientes (de condicionamiento). $R^{2}$

En palabras de un crítico: "Así se obtiene el 'porcentaje de varianza explicada' por la regresión, una expresión que, para la mayoría de los científicos sociales, tiene un significado dudoso pero un gran valor retórico. Si este número es grande, la regresión se ajusta bien y no tiene mucho sentido buscar variables adicionales. Se dice que otras ecuaciones de regresión sobre conjuntos de datos diferentes son menos satisfactorias o menos potentes si su es menor. Nada en apoya estas afirmaciones". ^[3]^{: 58} Y, después de construir un ejemplo en el que se mejora simplemente al considerar conjuntamente los datos de dos poblaciones diferentes: "La 'varianza explicada' no explica nada". ^[3]^[^{página necesaria}^]^[4]^{: 183} $R^{2}$ $R^{2}$ $R^{2}$ $R^{2}$

Véase también

Referencias

^ Kent, JT (1983). "Ganancia de información y una medida general de correlación". Biometrika . 70 (1): 163–173. doi :10.1093/biomet/70.1.163. JSTOR 2335954.
^ Fraser, DAS (1965). "Sobre la información en estadística". Ann. Math. Statist . 36 (3): 890–896. doi : 10.1214/aoms/1177700061 .
^ ab Achen, CH (1982). Interpretación y uso de la regresión . Beverly Hills: Sage. págs. 58-59. ISBN 0-8039-1915-8.
^ Achen, C. H. (1990). ""¿Qué explica la "varianza explicada"?: Respuesta". Análisis político . 2 (1): 173–184. doi :10.1093/pan/2.1.173.

Enlaces externos

Varianza explicada y no explicada en un gráfico