stringtranslate.com

Grados de libertad (estadísticas)

En estadística , el número de grados de libertad es el número de valores en el cálculo final de una estadística que pueden variar libremente. [1]

Las estimaciones de parámetros estadísticos pueden basarse en diferentes cantidades de información o datos. El número de datos independientes que entran en la estimación de un parámetro se denomina grados de libertad. En general, los grados de libertad de una estimación de un parámetro son iguales al número de puntuaciones independientes que entran en la estimación menos el número de parámetros utilizados como pasos intermedios en la estimación del parámetro mismo. Por ejemplo, si la varianza se va a estimar a partir de una muestra aleatoria de puntuaciones independientes, entonces los grados de libertad son iguales al número de puntuaciones independientes ( N ) menos el número de parámetros estimados como pasos intermedios (uno, es decir, la muestra media) y por lo tanto es igual a . [2]

Matemáticamente, los grados de libertad son el número de dimensiones del dominio de un vector aleatorio , o esencialmente el número de componentes "libres" (cuántos componentes deben conocerse antes de que el vector esté completamente determinado).

El término se utiliza con mayor frecuencia en el contexto de modelos lineales ( regresión lineal , análisis de varianza ), donde ciertos vectores aleatorios están obligados a permanecer en subespacios lineales , y el número de grados de libertad es la dimensión del subespacio . Los grados de libertad también se asocian comúnmente con las longitudes al cuadrado (o "suma de cuadrados" de las coordenadas) de dichos vectores, y los parámetros de chi-cuadrado y otras distribuciones que surgen en problemas de pruebas estadísticas asociados.

Si bien los libros de texto introductorios pueden introducir grados de libertad como parámetros de distribución o mediante pruebas de hipótesis, es la geometría subyacente la que define los grados de libertad y es fundamental para una comprensión adecuada del concepto.

Historia

Aunque el concepto básico de grados de libertad fue reconocido ya en 1821 en el trabajo del astrónomo y matemático alemán Carl Friedrich Gauss , [3] su definición y uso modernos fueron elaborados por primera vez por el estadístico inglés William Sealy Gosset en su artículo de Biometrika de 1908 "The Error probable de una media", publicado bajo el seudónimo "Estudiante". [4] Si bien Gosset en realidad no utilizó el término "grados de libertad", explicó el concepto mientras desarrollaba lo que se conoció como distribución t de Student . El término en sí fue popularizado por el estadístico y biólogo inglés Ronald Fisher , comenzando con su trabajo de 1922 sobre chi cuadrados. [5]

Notación

En las ecuaciones, el símbolo típico de los grados de libertad es ν (letra griega minúscula nu ). En textos y tablas se suele utilizar la abreviatura "df". RA Fisher usó n para simbolizar grados de libertad, pero el uso moderno normalmente reserva n para el tamaño de la muestra.

De vectores aleatorios

Geométricamente, los grados de libertad pueden interpretarse como la dimensión de ciertos subespacios vectoriales. Como punto de partida, supongamos que tenemos una muestra de observaciones independientes distribuidas normalmente,

Esto se puede representar como un vector aleatorio de n dimensiones :

Dado que este vector aleatorio puede encontrarse en cualquier lugar del espacio n -dimensional, tiene n grados de libertad.

Ahora, sea la media muestral . El vector aleatorio se puede descomponer como la suma de la media muestral más un vector de residuos:

El primer vector del lado derecho está obligado a ser múltiplo del vector de unos, y la única cantidad libre es . Por tanto tiene 1 grado de libertad.

El segundo vector está restringido por la relación . Los primeros n  − 1 componentes de este vector pueden ser cualquier cosa. Sin embargo, una vez que conoces los primeros n  − 1 componentes, la restricción te indica el valor del n ésimo componente. Por tanto, este vector tiene n  − 1 grados de libertad.

Matemáticamente, el primer vector es la proyección oblicua del vector de datos sobre el subespacio abarcado por el vector de unos. El 1 grado de libertad es la dimensión de este subespacio. El segundo vector residual es la proyección de mínimos cuadrados sobre el complemento ortogonal ( n  − 1) dimensional de este subespacio, y tiene n  − 1 grados de libertad.

En las aplicaciones de pruebas estadísticas, a menudo uno no está directamente interesado en los vectores componentes, sino en sus longitudes al cuadrado. En el ejemplo anterior, la suma de cuadrados residual es

Si los puntos de datos se distribuyen normalmente con media 0 y varianza , entonces la suma residual de cuadrados tiene una distribución chi-cuadrado escalada (escalada por el factor ), con n  − 1 grados de libertad. Los grados de libertad, aquí un parámetro de la distribución, todavía pueden interpretarse como la dimensión de un subespacio vectorial subyacente.

Asimismo, el estadístico de prueba t para una muestra ,

sigue una distribución t de Student con n  − 1 grados de libertad cuando la media hipotética es correcta. Nuevamente, los grados de libertad surgen del vector residual en el denominador.

En modelos de ecuaciones estructurales

Cuando se presentan los resultados de los modelos de ecuaciones estructurales (SEM), generalmente incluyen uno o más índices de ajuste general del modelo, el más común de los cuales es un estadístico χ 2 . Esto forma la base de otros índices que se informan comúnmente. Aunque son estas otras estadísticas las que se interpretan con mayor frecuencia, los grados de libertad de χ 2 son esenciales para comprender el ajuste del modelo, así como la naturaleza del modelo en sí.

Los grados de libertad en SEM se calculan como una diferencia entre la cantidad de datos únicos que se utilizan como entrada en el análisis, a veces llamados conocidos, y el número de parámetros que se estiman de manera única, a veces llamados incógnitas. Por ejemplo, en un análisis factorial confirmatorio de un factor con 4 ítems, hay 10 datos conocidos (las seis covarianzas únicas entre los cuatro ítems y las varianzas de los cuatro ítems) y 8 incógnitas (4 cargas factoriales y 4 varianzas de error) para 2 grados de libertad. Los grados de libertad son importantes para comprender el ajuste del modelo, aunque sólo sea por esa razón: en igualdad de condiciones, cuantos menos grados de libertad, mejores serán los índices como χ 2 .

Se ha demostrado que los lectores de artículos que contienen SEM pueden utilizar grados de libertad para determinar si los autores de esos artículos en realidad están informando las estadísticas correctas de ajuste del modelo. En las ciencias organizacionales, por ejemplo, casi la mitad de los artículos publicados en las principales revistas informan grados de libertad que son inconsistentes con los modelos descritos en esos artículos, lo que deja al lector preguntándose qué modelos se probaron realmente. [6]

de residuos

Una forma común de pensar en los grados de libertad es como la cantidad de datos independientes disponibles para estimar otro elemento de información. Más concretamente, el número de grados de libertad es el número de observaciones independientes en una muestra de datos que están disponibles para estimar un parámetro de la población de la que se extrae esa muestra. Por ejemplo, si tenemos dos observaciones, al calcular la media tenemos dos observaciones independientes; sin embargo, al calcular la varianza, solo tenemos una observación independiente, ya que las dos observaciones están igualmente distantes de la media muestral.

Al ajustar modelos estadísticos a los datos, los vectores de residuos están obligados a estar en un espacio de dimensión más pequeña que el número de componentes del vector. Esa dimensión más pequeña es el número de grados de libertad para el error , también llamados grados de libertad residuales .

Ejemplo

Quizás el ejemplo más sencillo sea éste. Suponer

son variables aleatorias cada una con valor esperado μ , y dejemos

sea ​​la "media muestral". Entonces las cantidades

son residuos que pueden considerarse estimaciones de los errores X i  −  μ . La suma de los residuos (a diferencia de la suma de los errores) es necesariamente 0. Si se conocen los valores de cualquier n  − 1 de los residuos, se puede encontrar el último. Eso significa que están obligados a estar en un espacio de dimensión n  − 1. Se dice que hay n  − 1 grados de libertad para los errores.

Un ejemplo que es sólo un poco menos simple es el de la estimación de mínimos cuadrados de a y b en el modelo

donde x i está dado, pero e i y por tanto Y i son aleatorios. Sean y las estimaciones de mínimos cuadrados de a y b . Entonces los residuos

están obligados a estar dentro del espacio definido por las dos ecuaciones

Se dice que hay n  − 2 grados de libertad para el error.

Notacionalmente, la letra mayúscula Y se utiliza para especificar el modelo, mientras que la y minúscula se utiliza para la definición de los residuos; esto se debe a que las primeras son variables aleatorias hipotéticas y las segundas son datos reales.

Podemos generalizar esto a una regresión múltiple que involucre p parámetros y covariables (por ejemplo, p  − 1 predictores y una media (=intersección en la regresión)), en cuyo caso el costo en grados de libertad del ajuste es p , dejando n - p grados de libertad para los errores

En modelos lineales

La demostración anterior de las distribuciones t y chi-cuadrado para problemas de una muestra es el ejemplo más simple en el que surgen grados de libertad. Sin embargo, descomposiciones vectoriales y geométricas similares subyacen a gran parte de la teoría de los modelos lineales , incluida la regresión lineal y el análisis de varianza . Aquí se presenta un ejemplo explícito basado en la comparación de tres medias; Christensen (2002) analiza con más detalle la geometría de los modelos lineales. [7]

Supongamos que se realizan observaciones independientes para tres poblaciones, , y . La restricción a tres grupos y tamaños de muestra iguales simplifica la notación, pero las ideas se generalizan fácilmente.

Las observaciones se pueden descomponer como

donde están las medias de las muestras individuales y es la media de las 3 n observaciones. En notación vectorial, esta descomposición se puede escribir como

El vector de observación, en el lado izquierdo, tiene 3 n grados de libertad. En el lado derecho, el primer vector tiene un grado de libertad (o dimensión) para la media general. El segundo vector depende de tres variables aleatorias , y . Sin embargo, estos deben sumar 0 y, por lo tanto, están restringidos; por lo tanto, el vector debe estar en un subespacio bidimensional y tiene 2 grados de libertad. Los 3 n  − 3 grados de libertad restantes están en el vector residual (compuesto por n  − 1 grados de libertad dentro de cada una de las poblaciones).

En análisis de varianza (ANOVA)

En los problemas de pruebas estadísticas, normalmente no nos interesan los vectores componentes en sí, sino más bien sus longitudes al cuadrado, o suma de cuadrados. Los grados de libertad asociados con una suma de cuadrados son los grados de libertad de los vectores componentes correspondientes.

El ejemplo anterior de tres poblaciones es un ejemplo de análisis de varianza unidireccional . La suma de cuadrados del modelo o tratamiento es la longitud al cuadrado del segundo vector,

con 2 grados de libertad. La suma de cuadrados residual o error es

con 3( norte −1) grados de libertad. Por supuesto, los libros de introducción a ANOVA suelen indicar fórmulas sin mostrar los vectores, pero es esta geometría subyacente la que da origen a las fórmulas SS y muestra cómo determinar sin ambigüedades los grados de libertad en cualquier situación dada.

Bajo la hipótesis nula de que no hay diferencias entre las medias poblacionales (y suponiendo que se cumplan los supuestos de regularidad estándar del ANOVA), las sumas de cuadrados tienen distribuciones de chi-cuadrado escaladas, con los grados de libertad correspondientes. El estadístico de la prueba F es la relación, después de escalar según los grados de libertad. Si no hay diferencia entre las medias de población, esta relación sigue una distribución F con 2 y 3 n  − 3 grados de libertad.

En algunos entornos complicados, como los diseños de parcelas divididas desequilibrados , las sumas de cuadrados ya no tienen distribuciones de chi-cuadrado escaladas. La comparación de sumas de cuadrados con grados de libertad ya no tiene sentido y el software puede informar ciertos "grados de libertad" fraccionarios en estos casos. Estos números no tienen una interpretación genuina de los grados de libertad, sino que simplemente proporcionan una distribución aproximada de chi-cuadrado para la suma de cuadrados correspondiente. Los detalles de tales aproximaciones están fuera del alcance de esta página.

En distribuciones de probabilidad

Varias distribuciones estadísticas que se encuentran comúnmente ( t de Student , chi-cuadrado , F ) tienen parámetros que comúnmente se denominan grados de libertad . Esta terminología simplemente refleja que en muchas aplicaciones donde ocurren estas distribuciones, el parámetro corresponde a los grados de libertad de un vector aleatorio subyacente, como en el ejemplo anterior de ANOVA. Otro ejemplo simple es: si son variables aleatorias normales independientes , el estadístico

sigue una distribución chi-cuadrado con n  - 1 grados de libertad. Aquí, los grados de libertad surgen de la suma de cuadrados residual en el numerador y, a su vez, de los n  − 1 grados de libertad del vector residual subyacente .

En la aplicación de estas distribuciones a modelos lineales, los parámetros de grados de libertad sólo pueden tomar valores enteros . Las familias de distribuciones subyacentes permiten valores fraccionarios para los parámetros de grados de libertad, que pueden surgir en usos más sofisticados. Un conjunto de ejemplos son los problemas en los que se utilizan aproximaciones de chi-cuadrado basadas en grados de libertad efectivos. En otras aplicaciones, como el modelado de datos de cola pesada , se puede utilizar la distribución at o F como modelo empírico. En estos casos, no hay grados particulares de interpretación de libertad para los parámetros de distribución, aunque la terminología puede seguir utilizándose.

En regresión no estándar

Muchos métodos de regresión no estándar, incluidos los mínimos cuadrados regularizados (p. ej., regresión de crestas ), los suavizadores lineales , los splines de suavizado y la regresión semiparamétrica , no se basan en proyecciones de mínimos cuadrados ordinarios , sino en proyecciones de mínimos cuadrados regularizadas ( generalizadas y/o penalizadas). cuadrados, por lo que los grados de libertad definidos en términos de dimensionalidad generalmente no son útiles para estos procedimientos. Sin embargo, estos procedimientos siguen siendo lineales en las observaciones y los valores ajustados de la regresión se pueden expresar en la forma

donde es el vector de valores ajustados en cada uno de los valores de covariables originales del modelo ajustado, y es el vector original de respuestas y H es la matriz hat o, más generalmente, una matriz más suave.

Para la inferencia estadística, todavía se pueden formar sumas de cuadrados: el modelo de suma de cuadrados es ; la suma de cuadrados residual es . Sin embargo, debido a que H no corresponde a un ajuste de mínimos cuadrados ordinario (es decir, no es una proyección ortogonal), estas sumas de cuadrados ya no tienen distribuciones de chi-cuadrado (escaladas, no centrales) ni grados de dimensión definidos dimensionalmente. -La libertad no sirve.

Los grados efectivos de libertad del ajuste se pueden definir de varias maneras para implementar pruebas de bondad de ajuste , validación cruzada y otros procedimientos de inferencia estadística . Aquí se puede distinguir entre grados de libertad efectivos de regresión y grados de libertad efectivos residuales .

Grados de libertad efectivos de regresión

Para los grados de libertad efectivos de regresión, las definiciones apropiadas pueden incluir la traza de la matriz hat, [8] tr( H ), la traza de la forma cuadrática de la matriz hat, tr( H'H ), la forma tr(2 HH H' ), o la aproximación de Satterthwaite , tr( H'H ) 2 /tr( H'HH'H ) . [9] En el caso de la regresión lineal, la matriz hat H es X ( X  ' X ) −1 X ' , y todas estas definiciones se reducen a los grados de libertad habituales. Darse cuenta de

Los grados de libertad de regresión (no residuales) en los modelos lineales son "la suma de las sensibilidades de los valores ajustados con respecto a los valores de respuesta observados", [10] es decir, la suma de las puntuaciones de apalancamiento .

Una forma de ayudar a conceptualizar esto es considerar una matriz de suavizado simple como un desenfoque gaussiano , utilizada para mitigar el ruido de los datos. A diferencia de un ajuste lineal o polinómico simple, calcular los grados de libertad efectivos de la función de suavizado no es sencillo. En estos casos, es importante estimar los grados de libertad permitidos por la matriz para que los grados de libertad residuales puedan luego usarse para estimar pruebas estadísticas como .

Grados de libertad efectivos residuales

Existen definiciones correspondientes de grados de libertad efectivos residuales (redf), con H reemplazado por I  −  H. Por ejemplo, si el objetivo es estimar la varianza del error, la redf se definiría como tr(( I  −  H )'( I  −  H )), y la estimación insesgada es (con ),

o: [11] [12] [13] [14]

La última aproximación anterior [12] reduce el costo computacional de O ( n 2 ) a solo O ( n ). En general, el numerador sería la función objetivo que se minimiza; por ejemplo, si la matriz hat incluye una matriz de covarianza de observación, Σ, entonces se convierte en .

General

Tenga en cuenta que, a diferencia del caso original, se permiten grados de libertad no enteros, aunque el valor generalmente debe estar restringido entre 0 y n . [15]

Considere, como ejemplo, el k - vecino más cercano suavizador, que es el promedio de los k valores medidos más cercanos al punto dado. Entonces, en cada uno de los n puntos medidos, el peso del valor original en la combinación lineal que constituye el valor predicho es solo 1/ k . Por tanto, la traza de la matriz hat es n/k . Por tanto, el suave cuesta n/k grados de libertad efectivos.

Como otro ejemplo, consideremos la existencia de observaciones casi duplicadas. La aplicación ingenua de la fórmula clásica, np , conduciría a una sobreestimación del grado de libertad de los residuos, como si cada observación fuera independiente. Sin embargo, de manera más realista, la matriz hat H = X ( X  ' Σ −1 X ) −1 X ' Σ −1 implicaría una matriz de covarianza de observación Σ que indica la correlación distinta de cero entre las observaciones.

La formulación más general del grado de libertad efectivo daría como resultado una estimación más realista para, por ejemplo, la varianza del error σ 2 , que a su vez escala la desviación estándar a posteriori de los parámetros desconocidos; el grado de libertad también afectará el factor de expansión necesario para producir una elipse de error para un nivel de confianza determinado .

Otras formulaciones

Conceptos similares son los grados de libertad equivalentes en regresión no paramétrica , [16] el grado de libertad de la señal en estudios atmosféricos, [17] [18] y el grado de libertad no entero en geodesia. [19] [20]

La suma de cuadrados residual tiene una distribución chi-cuadrado generalizada , y la teoría asociada con esta distribución [21] proporciona una ruta alternativa a las respuestas proporcionadas anteriormente. [ Se necesita más explicación ]

Ver también

Referencias

  1. ^ "Grados de libertad". Glosario de términos estadísticos . Software animado . Consultado el 21 de agosto de 2008 .
  2. ^ Lane, David M. "Grados de libertad". Hiperstat en línea . Soluciones estadísticas . Consultado el 21 de agosto de 2008 .
  3. ^ Walker, HM (abril de 1940). "Grados de libertad" (PDF) . Revista de Psicología Educativa . 31 (4): 253–269. doi :10.1037/h0054588.
  4. ^ Estudiante (marzo de 1908). "El probable error de una media". Biometrika . 6 (1): 1–25. doi :10.2307/2331554. JSTOR  2331554.
  5. ^ Fisher, RA (enero de 1922). "Sobre la interpretación de χ2 a partir de tablas de contingencia y el cálculo de P". Revista de la Real Sociedad de Estadística . 85 (1): 87–94. doi :10.2307/2340521. JSTOR  2340521.
  6. ^ Cortina, JM, Green, JP, Keeler, KR y Vandenberg, RJ (2017). Grados de libertad en SEM: ¿Estamos probando los modelos que decimos probar?. Métodos de investigación organizacional, 20(3), 350-378.
  7. ^ Christensen, Ronald (2002). Respuestas planas a preguntas complejas: la teoría de los modelos lineales (tercera ed.). Nueva York: Springer. ISBN 0-387-95361-2.
  8. ^ Trevor Hastie , Robert Tibshirani , Jerome H. Friedman (2009), Los elementos del aprendizaje estadístico: extracción de datos, inferencia y predicción , 2ª ed., 746 p. ISBN 978-0-387-84857-0 , doi :10.1007/978-0-387-84858-7, [1] (ecuación (5.16)) 
  9. ^ Zorro, J.; Publicaciones sabias, inc.; SABIO. (2000). Regresión simple no paramétrica: diagramas de dispersión suavizados. Regresión simple no paramétrica: diagramas de dispersión suavizados. Publicaciones SAGE. pag. 58.ISBN 978-0-7619-1585-0. Consultado el 28 de agosto de 2020 . {{cite book}}: |first2=tiene nombre genérico ( ayuda )
  10. ^ Ye, J. (1998), "Sobre la medición y corrección de los efectos de la minería de datos y la selección de modelos", Revista de la Asociación Estadounidense de Estadística , 93 (441), 120-131. JSTOR  2669609 (ecuación (7))
  11. ^ Clive Loader (1999), Regresión local y probabilidad, ISBN 978-0-387-98775-0 , doi :10.1007/b98858, (eq.(2.18), p. 30) 
  12. ^ ab Trevor Hastie, Robert Tibshirani (1990), Modelos aditivos generalizados, CRC Press, (p. 54) y (eq. (B.1), p. 305))
  13. ^ Simon N. Wood (2006), Modelos aditivos generalizados: una introducción con R, CRC Press, (ecuación (4,14), p. 172)
  14. ^ David Ruppert, MP Wand, RJ Carroll (2003), Regresión semiparamétrica , Cambridge University Press (ecuación (3.28), p. 82)
  15. ^ James S. Hodges (2014), Modelos lineales ricamente parametrizados , CRC Press. [2]
  16. ^ Peter J. Green, BW Silverman (1994), Regresión no paramétrica y modelos lineales generalizados: un enfoque de penalización de rugosidad, CRC Press (ecuación (3.15), p. 37)
  17. ^ Clive D. Rodgers (2000), Métodos inversos para sondeo atmosférico: teoría y práctica , World Scientific (ecuación (2.56), p. 31)
  18. ^ Adrian Doicu, Thomas Trautmann, Franz Schreier (2010), Regularización numérica para problemas inversos atmosféricos , Springer (ecuación (4.26), p. 114)
  19. ^ D. Dong, TA Herring y RW King (1997), Estimación de la deformación regional a partir de una combinación de datos geodésicos terrestres y espaciales, J. Geodesy , 72 (4), 200–214, doi :10.1007/s001900050161 (eq.(27) ), pág.205)
  20. ^ H. Theil (1963), "Sobre el uso de información previa incompleta en el análisis de regresión", Revista de la Asociación Estadounidense de Estadística , 58 (302), 401–414 JSTOR  2283275 (eq.(5.19)–(5.20))
  21. ^ Jones, DA (1983) "Análisis estadístico de modelos empíricos ajustados por optimización", Biometrika , 70 (1), 67–88

Otras lecturas

enlaces externos