En estadística , el número de grados de libertad es el número de valores en el cálculo final de una estadística que son libres de variar. [1]
Las estimaciones de parámetros estadísticos pueden basarse en diferentes cantidades de información o datos. El número de piezas independientes de información que entran en la estimación de un parámetro se denomina grados de libertad. En general, los grados de libertad de una estimación de un parámetro son iguales al número de puntuaciones independientes que entran en la estimación menos el número de parámetros utilizados como pasos intermedios en la estimación del parámetro en sí. Por ejemplo, si la varianza se va a estimar a partir de una muestra aleatoria de puntuaciones independientes, entonces los grados de libertad son iguales al número de puntuaciones independientes ( N ) menos el número de parámetros estimados como pasos intermedios (uno, es decir, la media de la muestra) y, por lo tanto, son iguales a . [2]
Matemáticamente, los grados de libertad son el número de dimensiones del dominio de un vector aleatorio , o esencialmente el número de componentes "libres" (cuántos componentes deben conocerse antes de que el vector esté completamente determinado).
El término se utiliza con mayor frecuencia en el contexto de modelos lineales ( regresión lineal , análisis de varianza ), donde ciertos vectores aleatorios están restringidos a estar en subespacios lineales , y el número de grados de libertad es la dimensión del subespacio . Los grados de libertad también se asocian comúnmente con las longitudes al cuadrado (o "suma de cuadrados" de las coordenadas) de dichos vectores, y los parámetros de chi-cuadrado y otras distribuciones que surgen en problemas de pruebas estadísticas asociadas.
Si bien los libros de texto introductorios pueden presentar los grados de libertad como parámetros de distribución o mediante pruebas de hipótesis, es la geometría subyacente la que define los grados de libertad y es fundamental para una comprensión adecuada del concepto.
Aunque el concepto básico de grados de libertad fue reconocido ya en 1821 en el trabajo del astrónomo y matemático alemán Carl Friedrich Gauss , [3] su definición y uso modernos fueron elaborados por primera vez por el estadístico inglés William Sealy Gosset en su artículo de 1908 en Biometrika "El error probable de una media", publicado bajo el seudónimo de "Student". [4] Si bien Gosset en realidad no utilizó el término "grados de libertad", explicó el concepto durante el desarrollo de lo que se conoció como la distribución t de Student . El término en sí fue popularizado por el estadístico y biólogo inglés Ronald Fisher , comenzando con su trabajo de 1922 sobre chi cuadrados. [5]
En ecuaciones, el símbolo típico para los grados de libertad es ν (letra griega minúscula nu ). En textos y tablas, se utiliza comúnmente la abreviatura "df". RA Fisher utilizó n para simbolizar los grados de libertad, pero el uso moderno suele reservar n para el tamaño de la muestra. Al informar los resultados de pruebas estadísticas , los grados de libertad suelen indicarse junto a la estadística de prueba como subíndice o entre paréntesis. [6]
Geométricamente, los grados de libertad pueden interpretarse como la dimensión de ciertos subespacios vectoriales. Como punto de partida, supongamos que tenemos una muestra de observaciones independientes distribuidas normalmente,
Esto se puede representar como un vector aleatorio n -dimensional :
Dado que este vector aleatorio puede estar en cualquier lugar del espacio n -dimensional, tiene n grados de libertad.
Ahora, sea la media muestral . El vector aleatorio se puede descomponer como la suma de la media muestral más un vector de residuos:
El primer vector del lado derecho está restringido a ser un múltiplo del vector de 1 y la única cantidad libre es . Por lo tanto, tiene 1 grado de libertad.
El segundo vector está restringido por la relación . Los primeros n − 1 componentes de este vector pueden ser cualquier valor. Sin embargo, una vez que conoces los primeros n − 1 componentes, la restricción te indica el valor del n º componente. Por lo tanto, este vector tiene n − 1 grados de libertad.
Matemáticamente, el primer vector es la proyección oblicua del vector de datos sobre el subespacio generado por el vector de unos. El grado de libertad 1 es la dimensión de este subespacio. El segundo vector residual es la proyección de mínimos cuadrados sobre el complemento ortogonal de dimensión ( n − 1) de este subespacio, y tiene n − 1 grados de libertad.
En las aplicaciones de pruebas estadísticas, a menudo no nos interesan directamente los vectores componentes, sino más bien sus longitudes al cuadrado. En el ejemplo anterior, la suma de cuadrados de los residuos es
Si los puntos de datos se distribuyen normalmente con media 0 y varianza , entonces la suma de cuadrados de los residuos tiene una distribución de chi-cuadrado escalada (escalada por el factor ), con n − 1 grados de libertad. Los grados de libertad, aquí un parámetro de la distribución, todavía se pueden interpretar como la dimensión de un subespacio vectorial subyacente.
De la misma manera, la estadística de prueba t de una muestra ,
sigue una distribución t de Student con n − 1 grados de libertad cuando la media hipotética es correcta. Nuevamente, los grados de libertad surgen del vector residual en el denominador.
Cuando se presentan los resultados de los modelos de ecuaciones estructurales (SEM), generalmente incluyen uno o más índices de ajuste general del modelo, el más común de los cuales es una estadística χ 2. Esta forma la base para otros índices que se informan comúnmente. Si bien son estas otras estadísticas las que se interpretan con mayor frecuencia, los grados de libertad de la χ 2 son esenciales para comprender el ajuste del modelo, así como la naturaleza del modelo en sí.
Los grados de libertad en SEM se calculan como una diferencia entre el número de piezas únicas de información que se utilizan como entrada en el análisis, a veces llamadas conocidas, y el número de parámetros que se estiman de forma única, a veces llamadas desconocidas. Por ejemplo, en un análisis factorial confirmatorio de un factor con 4 elementos, hay 10 conocidos (las seis covarianzas únicas entre los cuatro elementos y las cuatro varianzas de los elementos) y 8 desconocidos (4 cargas factoriales y 4 varianzas de error) para 2 grados de libertad. Los grados de libertad son importantes para la comprensión del ajuste del modelo, aunque más no sea porque, en igualdad de condiciones, cuantos menos grados de libertad, mejores serán los índices como χ 2 .
Se ha demostrado que los lectores de artículos que contienen modelos estadísticos de modelos pueden utilizar los grados de libertad para determinar si los autores de esos artículos están informando de hecho las estadísticas de ajuste del modelo correctas. En las ciencias organizacionales, por ejemplo, casi la mitad de los artículos publicados en las principales revistas informan grados de libertad que son incoherentes con los modelos descritos en esos artículos, lo que deja al lector con la duda de qué modelos se probaron realmente. [7]
Una forma habitual de pensar en los grados de libertad es como el número de datos independientes disponibles para estimar otro dato. Más concretamente, el número de grados de libertad es el número de observaciones independientes en una muestra de datos que están disponibles para estimar un parámetro de la población de la que se extrae esa muestra. Por ejemplo, si tenemos dos observaciones, al calcular la media tenemos dos observaciones independientes; sin embargo, al calcular la varianza, tenemos solo una observación independiente, ya que las dos observaciones están igualmente distantes de la media de la muestra.
Al ajustar los modelos estadísticos a los datos, los vectores de residuos se limitan a estar en un espacio de dimensión menor que el número de componentes del vector. Esa dimensión menor es el número de grados de libertad para el error , también llamados grados de libertad de los residuos .
Quizás el ejemplo más simple sea éste: supongamos que
son variables aleatorias cada una con un valor esperado μ , y sea
sea la "media de la muestra". Entonces las cantidades
son residuos que pueden considerarse estimaciones de los errores X i − μ . La suma de los residuos (a diferencia de la suma de los errores) es necesariamente 0. Si se conocen los valores de cualesquiera n − 1 de los residuos, se puede encontrar el último. Esto significa que están obligados a estar en un espacio de dimensión n − 1. Se dice que hay n − 1 grados de libertad para los errores.
Un ejemplo que es apenas menos simple es el de la estimación por mínimos cuadrados de a y b en el modelo.
donde x i está dado, pero e i y, por lo tanto, Y i son aleatorios. Sean y las estimaciones de mínimos cuadrados de a y b . Entonces, los residuos
están restringidos a estar dentro del espacio definido por las dos ecuaciones
Se dice que hay n − 2 grados de libertad para el error.
En términos de notación, se utiliza la letra Y mayúscula para especificar el modelo, mientras que la y minúscula en la definición de los residuos; esto se debe a que las primeras son variables aleatorias hipotéticas y los segundos son datos reales.
Podemos generalizar esto a una regresión múltiple que involucra p parámetros y covariables (por ejemplo, p − 1 predictores y una media (=intersección en la regresión)), en cuyo caso el costo en grados de libertad del ajuste es p , dejando n - p grados de libertad para los errores.
La demostración de las distribuciones t y chi-cuadrado para problemas de una muestra anterior es el ejemplo más simple en el que surgen los grados de libertad. Sin embargo, una geometría y descomposiciones vectoriales similares sustentan gran parte de la teoría de los modelos lineales , incluida la regresión lineal y el análisis de varianza . Aquí se presenta un ejemplo explícito basado en la comparación de tres medias; Christensen (2002) analiza la geometría de los modelos lineales con más detalle. [8]
Supongamos que se realizan observaciones independientes para tres poblaciones, y . La restricción a tres grupos y tamaños de muestra iguales simplifica la notación, pero las ideas se generalizan fácilmente.
Las observaciones se pueden descomponer como
donde son las medias de las muestras individuales y es la media de las 3 n observaciones. En notación vectorial, esta descomposición se puede escribir como
El vector de observación, en el lado izquierdo, tiene 3 n grados de libertad. En el lado derecho, el primer vector tiene un grado de libertad (o dimensión) para la media general. El segundo vector depende de tres variables aleatorias, y . Sin embargo, estas deben sumar 0 y, por lo tanto, están restringidas; por lo tanto, el vector debe estar en un subespacio bidimensional y tiene 2 grados de libertad. Los 3 n − 3 grados de libertad restantes están en el vector residual (compuesto por n − 1 grados de libertad dentro de cada una de las poblaciones).
En los problemas de pruebas estadísticas, normalmente no nos interesan los vectores componentes en sí, sino sus longitudes elevadas al cuadrado o suma de cuadrados. Los grados de libertad asociados con una suma de cuadrados son los grados de libertad de los vectores componentes correspondientes.
El ejemplo de tres poblaciones anterior es un ejemplo de análisis de varianza unidireccional . La suma de cuadrados del modelo o tratamiento es la longitud al cuadrado del segundo vector,
con 2 grados de libertad. La suma de cuadrados residual o de error es
con 3( n −1) grados de libertad. Por supuesto, los libros introductorios sobre ANOVA suelen indicar fórmulas sin mostrar los vectores, pero es esta geometría subyacente la que da lugar a las fórmulas SS y muestra cómo determinar de forma inequívoca los grados de libertad en cualquier situación dada.
Bajo la hipótesis nula de que no hay diferencia entre las medias de la población (y suponiendo que se satisfacen los supuestos de regularidad estándar del ANOVA), las sumas de cuadrados tienen distribuciones de chi-cuadrado escaladas, con los grados de libertad correspondientes. El estadístico de la prueba F es el cociente, después de escalar por los grados de libertad. Si no hay diferencia entre las medias de la población, este cociente sigue una distribución F con 2 y 3 n − 3 grados de libertad.
En algunos entornos complicados, como los diseños de parcelas divididas no balanceadas , las sumas de cuadrados ya no tienen distribuciones de chi-cuadrado escaladas. La comparación de la suma de cuadrados con los grados de libertad ya no tiene sentido y el software puede informar ciertos "grados de libertad" fraccionarios en estos casos. Estos números no tienen una interpretación genuina de los grados de libertad, sino que simplemente brindan una distribución de chi-cuadrado aproximada para la suma de cuadrados correspondiente. Los detalles de dichas aproximaciones están más allá del alcance de esta página.
Varias distribuciones estadísticas que se encuentran comúnmente ( t de Student , chi-cuadrado , F ) tienen parámetros que se conocen comúnmente como grados de libertad . Esta terminología simplemente refleja que en muchas aplicaciones donde ocurren estas distribuciones, el parámetro corresponde a los grados de libertad de un vector aleatorio subyacente, como en el ejemplo de ANOVA anterior. Otro ejemplo simple es: si son variables aleatorias normales independientes , la estadística
sigue una distribución de chi-cuadrado con n − 1 grados de libertad. Aquí, los grados de libertad surgen de la suma de cuadrados de los residuos en el numerador y, a su vez, de los n − 1 grados de libertad del vector residual subyacente .
En la aplicación de estas distribuciones a modelos lineales, los parámetros de grados de libertad solo pueden tomar valores enteros . Las familias de distribuciones subyacentes permiten valores fraccionarios para los parámetros de grados de libertad, que pueden surgir en usos más sofisticados. Un conjunto de ejemplos son los problemas en los que se utilizan aproximaciones de chi-cuadrado basadas en grados de libertad efectivos. En otras aplicaciones, como el modelado de datos de cola pesada , se puede utilizar la distribución at o F como modelo empírico. En estos casos, no existe una interpretación particular de los grados de libertad para los parámetros de distribución, aunque se pueda seguir utilizando la terminología.
Muchos métodos de regresión no estándar, incluidos los mínimos cuadrados regularizados (por ejemplo, la regresión de cresta ), los suavizadores lineales , los splines de suavizado y la regresión semiparamétrica , no se basan en proyecciones de mínimos cuadrados ordinarios , sino en mínimos cuadrados regularizados ( generalizados y/o penalizados), por lo que los grados de libertad definidos en términos de dimensionalidad generalmente no son útiles para estos procedimientos. Sin embargo, estos procedimientos siguen siendo lineales en las observaciones, y los valores ajustados de la regresión se pueden expresar en la forma
donde es el vector de valores ajustados en cada uno de los valores de covariable originales del modelo ajustado, y es el vector original de respuestas y H es la matriz de sombrero o, más generalmente, la matriz suavizadora.
Para la inferencia estadística, todavía se pueden formar sumas de cuadrados: la suma de cuadrados del modelo es ; la suma de cuadrados del residuo es . Sin embargo, debido a que H no corresponde a un ajuste de mínimos cuadrados ordinario (es decir, no es una proyección ortogonal), estas sumas de cuadrados ya no tienen distribuciones de chi-cuadrado (escaladas, no centrales) y los grados de libertad definidos dimensionalmente no son útiles.
Los grados de libertad efectivos del ajuste se pueden definir de diversas maneras para implementar pruebas de bondad de ajuste , validación cruzada y otros procedimientos de inferencia estadística . Aquí se puede distinguir entre grados de libertad efectivos de regresión y grados de libertad efectivos residuales .
Para los grados de libertad efectivos de la regresión, las definiciones apropiadas pueden incluir la traza de la matriz de sombrero, [9] tr( H ), la traza de la forma cuadrática de la matriz de sombrero, tr( H'H ), la forma tr(2 H – H H' ), o la aproximación de Satterthwaite , tr( H'H ) 2 /tr( H'HH'H ) . [10] En el caso de la regresión lineal, la matriz de sombrero H es X ( X ' X ) −1 X ' , y todas estas definiciones se reducen a los grados de libertad habituales. Nótese que
Los grados de libertad de regresión (no residuales) en los modelos lineales son "la suma de las sensibilidades de los valores ajustados con respecto a los valores de respuesta observados", [11] es decir, la suma de los puntajes de apalancamiento .
Una forma de ayudar a conceptualizar esto es considerar una matriz de suavizado simple como un desenfoque gaussiano , que se utiliza para mitigar el ruido de los datos. A diferencia de un ajuste lineal o polinomial simple, calcular los grados de libertad efectivos de la función de suavizado no es sencillo. En estos casos, es importante estimar los grados de libertad permitidos por la matriz para que los grados de libertad residuales se puedan utilizar para estimar pruebas estadísticas como .
Existen definiciones correspondientes de grados de libertad efectivos residuales (redf), con H reemplazado por I − H . Por ejemplo, si el objetivo es estimar la varianza del error, el redf se definiría como tr(( I − H )'( I − H )), y la estimación no sesgada es (con ),
o: [12] [13] [14] [15]
La última aproximación anterior [13] reduce el costo computacional de O ( n 2 ) a solo O ( n ). En general, el numerador sería la función objetivo que se está minimizando; por ejemplo, si la matriz de sombrero incluye una matriz de covarianza de observación, Σ, entonces se convierte en .
Obsérvese que, a diferencia del caso original, se permiten grados de libertad no enteros, aunque el valor generalmente debe seguir estando restringido entre 0 y n . [16]
Consideremos, como ejemplo, el suavizador de k vecinos más próximos , que es el promedio de los k valores medidos más próximos al punto dado. Entonces, en cada uno de los n puntos medidos, el peso del valor original en la combinación lineal que compone el valor predicho es solo 1/ k . Por lo tanto, la traza de la matriz de sombrero es n/k . Por lo tanto, el suavizador cuesta n/k grados de libertad efectivos.
Como otro ejemplo, considere la existencia de observaciones casi duplicadas. La aplicación ingenua de la fórmula clásica, n − p , llevaría a una sobrestimación del grado de libertad de los residuos, como si cada observación fuera independiente. Sin embargo, de manera más realista, la matriz de sombrero H = X ( X ' Σ −1 X ) −1 X ' Σ −1 implicaría una matriz de covarianza de observaciones Σ que indicaría la correlación no nula entre las observaciones.
La formulación más general del grado de libertad efectivo daría como resultado una estimación más realista, por ejemplo, de la varianza del error σ 2 , que a su vez escala la desviación estándar a posteriori de los parámetros desconocidos ; el grado de libertad también afectará el factor de expansión necesario para producir una elipse de error para un nivel de confianza dado .
Conceptos similares son los grados de libertad equivalentes en regresión no paramétrica , [17] el grado de libertad de la señal en estudios atmosféricos, [18] [19] y el grado de libertad no entero en geodesia. [20] [21]
La suma de cuadrados residual tiene una distribución de chi-cuadrado generalizada , y la teoría asociada con esta distribución [22] proporciona una ruta alternativa a las respuestas proporcionadas anteriormente. [ se necesita más explicación ]