En estadística , la variación explicada mide la proporción en la que un modelo matemático explica la variación ( dispersión ) de un conjunto de datos determinado. A menudo, la variación se cuantifica como varianza ; en ese caso, se puede utilizar el término más específico de varianza explicada .
La parte complementaria de la variación total se denomina variación no explicada o residual ; de igual modo, cuando se habla de varianza como tal, se habla de varianza no explicada o residual .
Siguiendo a Kent (1983), [1] utilizamos la información de Fraser (Fraser 1965) [2]
donde es la densidad de probabilidad de una variable aleatoria , y con ( ) son dos familias de modelos paramétricos. La familia de modelos 0 es la más simple, con un espacio de parámetros restringido .
Los parámetros se determinan mediante estimación de máxima verosimilitud .
La ganancia de información del modelo 1 sobre el modelo 0 se escribe como
donde se incluye un factor de 2 por conveniencia. Γ siempre es no negativo; mide hasta qué punto el mejor modelo de la familia 1 es mejor que el mejor modelo de la familia 0 para explicar g ( r ).
Supongamos una variable aleatoria bidimensional donde X se considerará como variable explicativa e Y como variable dependiente. Los modelos de la familia 1 "explican" Y en términos de X ,
mientras que en la familia 0, se supone que X e Y son independientes. Definimos la aleatoriedad de Y por , y la aleatoriedad de Y , dado X , por . Entonces,
puede interpretarse como la proporción de la dispersión de datos que se "explica" por X.
La fracción de varianza no explicada es un concepto establecido en el contexto de la regresión lineal . La definición habitual del coeficiente de determinación se basa en el concepto fundamental de varianza explicada.
Sea X un vector aleatorio e Y una variable aleatoria que se modela mediante una distribución normal con centro . En este caso, la proporción de variación explicada derivada anteriormente es igual al coeficiente de correlación al cuadrado .
Ténganse en cuenta las fuertes suposiciones del modelo: el centro de la distribución Y debe ser una función lineal de X y, para cualquier x dada , la distribución Y debe ser normal. En otras situaciones, generalmente no está justificado interpretarlo como proporción de la varianza explicada.
La varianza explicada se utiliza de manera rutinaria en el análisis de componentes principales . La relación con la ganancia de información de Fraser-Kent aún está por aclarar.
Como la fracción de "varianza explicada" es igual al cuadrado del coeficiente de correlación , comparte todas las desventajas de este último: refleja no sólo la calidad de la regresión, sino también la distribución de las variables independientes (de condicionamiento).
En palabras de un crítico: "Así se obtiene el 'porcentaje de varianza explicada' por la regresión, una expresión que, para la mayoría de los científicos sociales, tiene un significado dudoso pero un gran valor retórico. Si este número es grande, la regresión se ajusta bien y no tiene mucho sentido buscar variables adicionales. Se dice que otras ecuaciones de regresión sobre conjuntos de datos diferentes son menos satisfactorias o menos potentes si su es menor. Nada en apoya estas afirmaciones". [3] : 58 Y, después de construir un ejemplo en el que se mejora simplemente al considerar conjuntamente los datos de dos poblaciones diferentes: "La 'varianza explicada' no explica nada". [3] [ página necesaria ] [4] : 183