Variación explicada

En estadística , la variación explicada mide la proporción en la que un modelo matemático tiene en cuenta la variación ( dispersión ) de un conjunto de datos determinado. A menudo, la variación se cuantifica como varianza ; entonces, se puede utilizar el término más específico varianza explicada .

La parte complementaria de la variación total se llama variación inexplicable o residual ; Asimismo, cuando se habla de varianza como tal, se la denomina varianza residual o inexplicable .

Definición en términos de ganancia de información.

Ganancia de información mediante un mejor modelado

Siguiendo a Kent (1983), ^[1] utilizamos la información de Fraser (Fraser 1965) ^[2]

F(\theta )=\int {\textrm {d}}r\,g(r)\,\ln f(r;\theta )

donde es la densidad de probabilidad de una variable aleatoria , y con ( ) son dos familias de modelos paramétricos. La familia de modelos 0 es la más simple, con un espacio de parámetros restringido . $g(r)$ $R\,$ $f(r;\theta )\,$ $\theta \in \Theta _{i}$ $i=0,1\,$ $\Theta _{0}\subset \Theta _{1}$

Los parámetros están determinados por la estimación de máxima verosimilitud ,

\theta _{i}=\operatorname {argmax} _{\theta \in \Theta _{i}}F(\theta ).

La ganancia de información del modelo 1 sobre el modelo 0 se escribe como

\Gamma (\theta _{1}:\theta _{0})=2[F(\theta _{1})-F(\theta _{0})]\,

donde se incluye un factor de 2 por conveniencia. Γ siempre es no negativo; Mide en qué medida el mejor modelo de la familia 1 es mejor que el mejor modelo de la familia 0 para explicar g ( r ).

Ganancia de información mediante un modelo condicional.

Supongamos una variable aleatoria bidimensional donde X se considerará una variable explicativa y Y como una variable dependiente. Los modelos de la familia 1 "explican" Y en términos de X , $R=(X,Y)$

f(y\mid x;\theta )

mientras que en la familia 0, se supone que X e Y son independientes. Definimos la aleatoriedad de Y por , y la aleatoriedad de Y , dado X , por . Entonces, $D(Y)=\exp[-2F(\theta _{0})]$ $D(Y\mid X)=\exp[-2F(\theta _{1})]$

\rho _{C}^{2}=1-D(Y\mid X)/D(Y)

puede interpretarse como proporción de la dispersión de datos que es "explicada" por X .

Casos especiales y uso generalizado.

Regresión lineal

La fracción de varianza no explicada es un concepto establecido en el contexto de la regresión lineal . La definición habitual del coeficiente de determinación se basa en el concepto fundamental de varianza explicada.

Coeficiente de correlación como medida de la varianza explicada.

Sea X un vector aleatorio e Y una variable aleatoria modelada mediante una distribución normal con centro . En este caso, la proporción de variación explicada derivada anteriormente es igual al coeficiente de correlación al cuadrado . $\mu =\Psi ^{\textrm {T}}X$ $\rho _{C}^{2}$ $R^{2}$

Tenga en cuenta los fuertes supuestos del modelo: el centro de la distribución Y debe ser una función lineal de X y, para cualquier x dado , la distribución Y debe ser normal. En otras situaciones, generalmente no está justificado interpretarlo como proporción de la varianza explicada. $R^{2}$

En el análisis de componentes principales.

La varianza explicada se utiliza habitualmente en el análisis de componentes principales . La relación con la obtención de información de Fraser-Kent aún no se ha aclarado.

Crítica

Como la fracción de "varianza explicada" es igual al coeficiente de correlación al cuadrado , comparte todas las desventajas de este último: refleja no sólo la calidad de la regresión, sino también la distribución de las variables independientes (condicionantes). $R^{2}$

En palabras de un crítico: "Así se obtiene el 'porcentaje de varianza explicado' por la regresión, expresión que, para la mayoría de los científicos sociales, tiene un significado dudoso pero un gran valor retórico. Si este número es grande, la regresión da una buena idea". ajuste, y no tiene mucho sentido buscar variables adicionales. Se dice que otras ecuaciones de regresión en diferentes conjuntos de datos son menos satisfactorias o menos poderosas si su valor es menor. ^[3]^{: 58} Y, después de construir un ejemplo que se mejora simplemente considerando conjuntamente datos de dos poblaciones diferentes: "La 'varianza explicada' no explica nada". ^[3]^[^{página necesaria}^]^[4]^{: 183} $R^{2}$ $R^{2}$ $R^{2}$ $R^{2}$

Ver también

Referencias

^ Kent, JT (1983). "Ganancia de información y una medida general de correlación". Biometrika . 70 (1): 163–173. doi :10.1093/biomet/70.1.163. JSTOR 2335954.
^ Fraser, DAS (1965). "Sobre la información en las estadísticas". Ana. Matemáticas. Estatista . 36 (3): 890–896. doi : 10.1214/aoms/1177700061 .
^ ab Achen, CH (1982). Interpretación y uso de la regresión . Beverly Hills: sabio. págs. 58–59. ISBN 0-8039-1915-8.
^ Achen, CH (1990). ""¿Qué explica la" variación explicada "?: Respuesta". Análisis político . 2 (1): 173–184. doi : 10.1093/pan/2.1.173.

enlaces externos

Varianza explicada e inexplicada en un gráfico