Distribución de chi-cuadrado

En teoría de probabilidad y estadística , la distribución chi-cuadrado (también chi-cuadrado o -distribución ) con grados de libertad es la distribución de una suma de los cuadrados de variables aleatorias normales estándar independientes . ^[2] $\chi ^{2}$ $k$ $k$

La distribución chi-cuadrado es un caso especial de la distribución gamma y de la distribución Wishart univariante . En concreto, si entonces (donde es el parámetro de forma y el parámetro de escala de la distribución gamma) y . $\chi _{k}^{2}$ $X\sim \chi _{k}^{2}$ $X\sim {\text{Gamma}}(\alpha ={\frac {k}{2}},\theta =2)$ $\alpha$ $\theta$ $X\sim {\text{W}}_{1}(1,k)$

La distribución de chi-cuadrado escalada es una reparametrización de la distribución gamma y la distribución Wishart univariante . Específicamente, si entonces y . $s^{2}\chi _{k}^{2}$ $X\sim s^{2}\chi _{k}^{2}$ $X\sim {\text{Gamma}}(\alpha ={\frac {k}{2}},\theta =2s^{2})$ $X\sim {\text{W}}_{1}(s^{2},k)$

La distribución de chi-cuadrado es una de las distribuciones de probabilidad más utilizadas en estadística inferencial , en particular en pruebas de hipótesis y en la construcción de intervalos de confianza . ^[3]^[4]^[5]^[6] Esta distribución a veces se denomina distribución de chi-cuadrado central , un caso especial de la distribución de chi-cuadrado no central más general . ^[7]

La distribución de chi-cuadrado se utiliza en las pruebas de chi-cuadrado comunes para la bondad de ajuste de una distribución observada a una teórica, la independencia de dos criterios de clasificación de datos cualitativos y para hallar el intervalo de confianza para estimar la desviación estándar de la población de una distribución normal a partir de una desviación estándar de la muestra. Muchas otras pruebas estadísticas también utilizan esta distribución, como el análisis de varianza por rangos de Friedman .

Definiciones

Si $Z 1, ..., Z k$ son variables aleatorias normales estándar independientes , entonces la suma de sus cuadrados,

Q\ =\sum _{i=1}^{k}Z_{i}^{2},

se distribuye según la distribución de chi-cuadrado con $k$ grados de libertad. Esto se suele denotar como

Q\ \sim \ \chi ^{2}(k)\ \ {\text{or}}\ \ Q\ \sim \ \chi _{k}^{2}.

La distribución chi-cuadrado tiene un parámetro: un entero positivo $k$ que especifica el número de grados de libertad (el número de variables aleatorias que se suman, Z _i s).

Introducción

La distribución chi-cuadrado se utiliza principalmente en pruebas de hipótesis y, en menor medida, para intervalos de confianza de varianzas poblacionales cuando la distribución subyacente es normal. A diferencia de distribuciones más conocidas, como la distribución normal y la distribución exponencial , la distribución chi-cuadrado no se aplica con tanta frecuencia en el modelado directo de fenómenos naturales. Surge, entre otras, en las siguientes pruebas de hipótesis:

Prueba de independencia de chi-cuadrado en tablas de contingencia
Prueba de chi-cuadrado de bondad de ajuste de los datos observados a distribuciones hipotéticas
Prueba de razón de verosimilitud para modelos anidados
Prueba de rangos logarítmicos en el análisis de supervivencia
Prueba de Cochran-Mantel-Haenszel para tablas de contingencia estratificadas
Prueba de Wald
Prueba de puntuación

También es un componente de la definición de la distribución t y la distribución F utilizadas en pruebas t , análisis de varianza y análisis de regresión.

La razón principal por la que la distribución chi-cuadrado se utiliza ampliamente en las pruebas de hipótesis es su relación con la distribución normal. Muchas pruebas de hipótesis utilizan un estadístico de prueba, como el estadístico t en una prueba t . Para estas pruebas de hipótesis, a medida que aumenta el tamaño de la muestra, $n$ , la distribución de muestreo del estadístico de prueba se aproxima a la distribución normal ( teorema del límite central ). Debido a que el estadístico de prueba (como $t$ ) se distribuye normalmente de forma asintótica, siempre que el tamaño de la muestra sea lo suficientemente grande, la distribución utilizada para las pruebas de hipótesis puede aproximarse mediante una distribución normal. La prueba de hipótesis utilizando una distribución normal se entiende bien y es relativamente fácil. La distribución chi-cuadrado más simple es el cuadrado de una distribución normal estándar. Por lo tanto, siempre que se pueda utilizar una distribución normal para una prueba de hipótesis, se puede utilizar una distribución chi-cuadrado.

Supongamos que es una variable aleatoria muestreada de la distribución normal estándar, donde la media es y la varianza es : . Ahora, considere la variable aleatoria . La distribución de la variable aleatoria es un ejemplo de una distribución de chi-cuadrado: . El subíndice 1 indica que esta distribución de chi-cuadrado particular se construye a partir de solo 1 distribución normal estándar. Se dice que una distribución de chi-cuadrado construida elevando al cuadrado una única distribución normal estándar tiene 1 grado de libertad. Por lo tanto, a medida que aumenta el tamaño de la muestra para una prueba de hipótesis, la distribución del estadístico de prueba se aproxima a una distribución normal. Así como los valores extremos de la distribución normal tienen baja probabilidad (y dan valores p pequeños), los valores extremos de la distribución de chi-cuadrado tienen baja probabilidad. $Z$ $0$ $1$ $Z\sim N(0,1)$ $Q=Z^{2}$ $Q$ $\ Q\ \sim \ \chi _{1}^{2}$

Una razón adicional por la que la distribución chi-cuadrado se usa ampliamente es que aparece como la distribución de muestra grande de las pruebas de razón de verosimilitud generalizadas (LRT). ^[8] Las LRT tienen varias propiedades deseables; en particular, las LRT simples comúnmente proporcionan la mayor potencia para rechazar la hipótesis nula ( lema de Neyman-Pearson ) y esto también conduce a propiedades de optimalidad de las LRT generalizadas. Sin embargo, las aproximaciones normal y chi-cuadrado solo son válidas asintóticamente. Por esta razón, es preferible usar la distribución t en lugar de la aproximación normal o la aproximación chi-cuadrado para un tamaño de muestra pequeño. De manera similar, en los análisis de tablas de contingencia, la aproximación chi-cuadrado será deficiente para un tamaño de muestra pequeño, y es preferible usar la prueba exacta de Fisher . Ramsey muestra que la prueba binomial exacta es siempre más poderosa que la aproximación normal. ^[9]

Lancaster muestra las conexiones entre las distribuciones binomial, normal y chi-cuadrado de la siguiente manera. ^[10] De Moivre y Laplace establecieron que una distribución binomial podía aproximarse mediante una distribución normal. Específicamente, demostraron la normalidad asintótica de la variable aleatoria

\chi ={m-Np \over {\sqrt {Npq}}}

donde es el número observado de éxitos en los ensayos, donde la probabilidad de éxito es , y . $m$ $N$ $p$ $q=1-p$

Elevando al cuadrado ambos lados de la ecuación obtenemos

\chi ^{2}={(m-Np)^{2} \over Npq}

Usando , , y , esta ecuación se puede reescribir como $N=Np+N(1-p)$ $N=m+(N-m)$ $q=1-p$

\chi ^{2}={(m-Np)^{2} \over Np}+{(N-m-Nq)^{2} \over Nq}

La expresión de la derecha tiene la forma que Karl Pearson generalizaría a la forma

\chi ^{2}=\sum _{i=1}^{n}{\frac {(O_{i}-E_{i})^{2}}{E_{i}}}

dónde

$\chi ^{2}$ = estadística de prueba acumulativa de Pearson, que se aproxima asintóticamente a una distribución; = el número de observaciones del tipo ; = la frecuencia esperada (teórica) del tipo , afirmada por la hipótesis nula de que la fracción del tipo en la población es ; y = el número de celdas en la tabla. ^[^{cita requerida}^] $\chi ^{2}$ $O_{i}$ $i$ $E_{i}=Np_{i}$ $i$ $i$ $p_{i}$ $n$

En el caso de un resultado binomial (lanzar una moneda), la distribución binomial puede aproximarse mediante una distribución normal (para valores suficientemente grandes ). Debido a que el cuadrado de una distribución normal estándar es la distribución chi-cuadrado con un grado de libertad, la probabilidad de un resultado como 1 cara en 10 ensayos se puede aproximar utilizando la distribución normal directamente o la distribución chi-cuadrado para la diferencia normalizada al cuadrado entre el valor observado y el esperado. Sin embargo, muchos problemas involucran más de los dos resultados posibles de una binomial y, en su lugar, requieren 3 o más categorías, lo que conduce a la distribución multinomial. Así como de Moivre y Laplace buscaron y encontraron la aproximación normal a la binomial, Pearson buscó y encontró una aproximación normal multivariada degenerada a la distribución multinomial (los números en cada categoría se suman al tamaño total de la muestra, que se considera fijo). Pearson demostró que la distribución de chi-cuadrado surgió de una aproximación normal multivariada a la distribución multinomial, tomando en cuenta cuidadosamente la dependencia estadística (correlaciones negativas) entre los números de observaciones en diferentes categorías. ^[10] $n$

Función de densidad de probabilidad

La función de densidad de probabilidad (pdf) de la distribución chi-cuadrado es

f(x;\,k)={\begin{cases}{\dfrac {x^{k/2-1}e^{-x/2}}{2^{k/2}\Gamma \left({\frac {k}{2}}\right)}},&x>0;\\0,&{\text{otherwise}}.\end{cases}}

donde denota la función gamma , que tiene valores de forma cerrada para el entero . ${\textstyle \Gamma (k/2)}$ $k$

Para las derivaciones de la función de densidad de probabilidad en los casos de uno, dos y grados de libertad, consulte Pruebas relacionadas con la distribución de chi-cuadrado . $k$

Función de distribución acumulativa

Límite de Chernoff para la CDF y la cola (1-CDF) de una variable aleatoria de chi-cuadrado con diez grados de libertad ( ) $k=10$

Su función de distribución acumulativa es:

F(x;\,k)={\frac {\gamma ({\frac {k}{2}},\,{\frac {x}{2}})}{\Gamma ({\frac {k}{2}})}}=P\left({\frac {k}{2}},\,{\frac {x}{2}}\right),

donde es la función gamma incompleta inferior y es la función gamma regularizada . $\gamma (s,t)$ ${\textstyle P(s,t)}$

En un caso especial esta función tiene la forma simple: $k=2$

F(x;\,2)=1-e^{-x/2}

que se puede derivar fácilmente mediante la integración directa. La recurrencia entera de la función gamma facilita el cálculo para otros números pequeños, incluso . $f(x;\,2)={\frac {1}{2}}e^{-x/2}$ $F(x;\,k)$ $k$

Las tablas de la función de distribución acumulativa de chi-cuadrado están ampliamente disponibles y la función está incluida en muchas hojas de cálculo y todos los paquetes estadísticos .

Dejando , se pueden obtener los límites de Chernoff en las colas inferior y superior de la CDF. ^[11] Para los casos en que (que incluyen todos los casos en que esta CDF es menor que la mitad): $z\equiv x/k$ $0<z<1$ $F(zk;\,k)\leq (ze^{1-z})^{k/2}.$

El límite de cola para los casos en que , de manera similar, es $z>1$

1-F(zk;\,k)\leq (ze^{1-z})^{k/2}.

Para otra aproximación de la CDF modelada a partir del cubo de una gaussiana, consulte Distribución chi-cuadrado no central .

Propiedades

Teorema de Cochran

El siguiente es un caso especial del teorema de Cochran.

Teorema. Si son variables aleatorias normales estándar independientes distribuidas de manera idéntica (iid) , entonces donde $Z_{1},...,Z_{n}$ $\sum _{t=1}^{n}(Z_{t}-{\bar {Z}})^{2}\sim \chi _{n-1}^{2}$ ${\bar {Z}}={\frac {1}{n}}\sum _{t=1}^{n}Z_{t}.$

[Prueba]

Demostración. Sea un vector de variables aleatorias independientes distribuidas normalmente y su media. Entonces, donde es la matriz identidad y el vector de todos los unos. tiene un vector propio con valor propio , y vectores propios (todos ortogonales a ) con valor propio , que pueden elegirse de modo que sea una matriz ortogonal. Como también , tenemos que prueba la afirmación. $Z\sim {\mathcal {N}}({\bar {0}},1\!\!1)$ $n$ ${\bar {Z}}$ $\sum _{t=1}^{n}(Z_{t}-{\bar {Z}})^{2}~=~\sum _{t=1}^{n}Z_{t}^{2}-n{\bar {Z}}^{2}~=~Z^{\top }[1\!\!1-{\textstyle {\frac {1}{n}}}{\bar {1}}{\bar {1}}^{\top }]Z~=:~Z^{\top }\!MZ$ $1\!\!1$ ${\bar {1}}$ $M$ $b_{1}:={\textstyle {\frac {1}{\sqrt {n}}}}{\bar {1}}$ $0$ $n-1$ $b_{2},...,b_{n}$ $b_{1}$ $1$ $Q:=(b_{1},...,b_{n})$ $X:=Q^{\top }\!Z\sim {\mathcal {N}}({\bar {0}},Q^{\top }\!1\!\!1Q)={\mathcal {N}}({\bar {0}},1\!\!1)$ $\sum _{t=1}^{n}(Z_{t}-{\bar {Z}})^{2}~=~Z^{\top }\!MZ~=~X^{\top }\!Q^{\top }\!MQX~=~X_{2}^{2}+...+X_{n}^{2}~\sim ~\chi _{n-1}^{2},$

Aditividad

De la definición de la distribución chi-cuadrado se desprende que la suma de las variables chi-cuadrado independientes también se distribuye chi-cuadrado. En concreto, si son variables chi-cuadrado independientes con , grados de libertad, respectivamente, entonces chi-cuadrado se distribuye con grados de libertad. $X_{i},i={\overline {1,n}}$ $k_{i}$ $i={\overline {1,n}}$ $Y=X_{1}+\cdots +X_{n}$ $k_{1}+\cdots +k_{n}$

Media de la muestra

La media muestral de las variables chi-cuadrado iid de grado se distribuye según una distribución gamma con parámetros de forma y escala : $n$ $k$ $\alpha$ $\theta$

{\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}\sim \operatorname {Gamma} \left(\alpha =n\,k/2,\theta =2/n\right)\qquad {\text{where }}X_{i}\sim \chi ^{2}(k)

Asintóticamente, dado que para un parámetro de forma que tiende al infinito, una distribución Gamma converge hacia una distribución normal con expectativa y varianza , la media de la muestra converge hacia: $\alpha$ $\mu =\alpha \cdot \theta$ $\sigma ^{2}=\alpha \,\theta ^{2}$

${\overline {X}}\xrightarrow {n\to \infty } N(\mu =k,\sigma ^{2}=2\,k/n)$

Obsérvese que habríamos obtenido el mismo resultado invocando en cambio el teorema del límite central , observando que para cada variable chi-cuadrado de grado la expectativa es , y su varianza (y por lo tanto la varianza de la media de la muestra es ). $k$ $k$ $2\,k$ ${\overline {X}}$ $\sigma ^{2}={\frac {2k}{n}}$

Entropía

La entropía diferencial está dada por

h=\int _{0}^{\infty }f(x;\,k)\ln f(x;\,k)\,dx={\frac {k}{2}}+\ln \left[2\,\Gamma \left({\frac {k}{2}}\right)\right]+\left(1-{\frac {k}{2}}\right)\,\psi \!\left({\frac {k}{2}}\right),

¿Dónde está la función Digamma ? $\psi (x)$

La distribución de chi-cuadrado es la distribución de probabilidad de máxima entropía para una variable aleatoria para la cual y son fijos. Dado que la distribución de chi-cuadrado pertenece a la familia de distribuciones gamma, se puede derivar sustituyendo los valores apropiados en la Esperanza del momento logarítmico de gamma . Para la derivación a partir de principios más básicos, consulte la derivación en función generadora de momentos de la estadística suficiente . $X$ $\operatorname {E} (X)=k$ $\operatorname {E} (\ln(X))=\psi (k/2)+\ln(2)$

Momentos no centrales

Los momentos no centrales (momentos brutos) de una distribución chi-cuadrado con grados de libertad se dan por ^[12]^[13] $k$

\operatorname {E} (X^{m})=k(k+2)(k+4)\cdots (k+2m-2)=2^{m}{\frac {\Gamma \left(m+{\frac {k}{2}}\right)}{\Gamma \left({\frac {k}{2}}\right)}}.

Cumulantes

Los cumulantes se obtienen fácilmente mediante una expansión en serie de potencias del logaritmo de la función característica:

\kappa _{n}=2^{n-1}(n-1)!\,k

Concentración

La distribución de chi-cuadrado muestra una fuerte concentración alrededor de su media. Los límites estándar de Laurent-Massart ^{[14] son:}

\operatorname {P} (X-k\geq 2{\sqrt {kx}}+2x)\leq \exp(-x)

\operatorname {P} (k-X\geq 2{\sqrt {kx}})\leq \exp(-x)

Una consecuencia es que, si es un vector aleatorio gaussiano en , entonces, a medida que la dimensión crece, la longitud al cuadrado del vector se concentra estrechamente alrededor de un ancho : donde el exponente puede elegirse como cualquier valor en . $v\sim N(0,1)^{n}$ $\mathbb {R} ^{n}$ $n$ $n$ $n^{1/2+\alpha }$ $Pr(\|v\|^{2}\in [n-2n^{1/2+\alpha },n+2n^{1/2+\alpha }+2n^{\alpha }])\geq 1-e^{-n^{\alpha }}$ $\alpha$ $(0,1/2)$

Propiedades asintóticas

Por el teorema del límite central , debido a que la distribución chi-cuadrado es la suma de variables aleatorias independientes con media y varianza finitas, converge a una distribución normal para valores grandes de . Para muchos propósitos prácticos, para la distribución es suficientemente cercana a una distribución normal , por lo que la diferencia es ignorable. ^[15] Específicamente, si , entonces como tiende a infinito, la distribución de tiende a una distribución normal estándar. Sin embargo, la convergencia es lenta ya que la asimetría es y el exceso de curtosis es . $k$ $k$ $k>50$ $X\sim \chi ^{2}(k)$ $k$ $(X-k)/{\sqrt {2k}}$ ${\sqrt {8/k}}$ $12/k$

La distribución de muestreo de converge a la normalidad mucho más rápido que la distribución de muestreo de , ^[16] ya que la transformación logarítmica elimina gran parte de la asimetría. ^[17] $\ln(\chi ^{2})$ $\chi ^{2}$

Otras funciones de la distribución chi-cuadrado convergen más rápidamente a una distribución normal. Algunos ejemplos son:

Si entonces se distribuye aproximadamente normalmente con media y varianza unitaria (1922, por RA Fisher , ver (18.23), p. 426 de Johnson. ^[5] $X\sim \chi ^{2}(k)$ ${\sqrt {2X}}$ ${\sqrt {2k-1}}$
Si entonces se distribuye aproximadamente normalmente con media y varianza ^[18] Esto se conoce como la transformación de Wilson-Hilferty , véase (18.24), p. 426 de Johnson. ^[5] $X\sim \chi ^{2}(k)$ ${\sqrt[{3}]{X/k}}$ $1-{\frac {2}{9k}}$ ${\frac {2}{9k}}.$
- Esta transformación normalizadora conduce directamente a la aproximación mediana comúnmente utilizada mediante la retrotransformación a partir de la media, que también es la mediana de la distribución normal. $k{\bigg (}1-{\frac {2}{9k}}{\bigg )}^{3}\;$

Distribuciones relacionadas

Como , ( distribución normal ) $k\to \infty$ $(\chi _{k}^{2}-k)/{\sqrt {2k}}~{\xrightarrow {d}}\ N(0,1)\,$
$\chi _{k}^{2}\sim {\chi '}_{k}^{2}(0)$ ( distribución de chi-cuadrado no central con parámetro de no centralidad ) $\lambda =0$
Si entonces tiene la distribución chi-cuadrado $Y\sim \mathrm {F} (\nu _{1},\nu _{2})$ $X=\lim _{\nu _{2}\to \infty }\nu _{1}Y$ $\chi _{\nu _{1}}^{2}$

Como caso especial, si entonces tiene la distribución chi-cuadrado $Y\sim \mathrm {F} (1,\nu _{2})\,$ $X=\lim _{\nu _{2}\to \infty }Y\,$ $\chi _{1}^{2}$

$\|{\boldsymbol {N}}_{i=1,\ldots ,k}(0,1)\|^{2}\sim \chi _{k}^{2}$ (La norma al cuadrado de k variables distribuidas normalmente estándar es una distribución de chi-cuadrado con k grados de libertad )
Si y , entonces . ( distribución gamma ) $X\sim \chi _{\nu }^{2}\,$ $c>0\,$ $cX\sim \Gamma (k=\nu /2,\theta =2c)\,$
Si entonces ( distribución chi ) $X\sim \chi _{k}^{2}$ ${\sqrt {X}}\sim \chi _{k}$
Si , entonces es una distribución exponencial . (Ver distribución gamma para más información). $X\sim \chi _{2}^{2}$ $X\sim \operatorname {Exp} (1/2)$
Si , entonces es una distribución Erlang . $X\sim \chi _{2k}^{2}$ $X\sim \operatorname {Erlang} (k,1/2)$
Si , entonces $X\sim \operatorname {Erlang} (k,\lambda )$ $2\lambda X\sim \chi _{2k}^{2}$
Si ( distribución de Rayleigh ) entonces $X\sim \operatorname {Rayleigh} (1)\,$ $X^{2}\sim \chi _{2}^{2}\,$
Si ( distribución de Maxwell ) entonces $X\sim \operatorname {Maxwell} (1)\,$ $X^{2}\sim \chi _{3}^{2}\,$
Si entonces ( Distribución chi-cuadrado inversa ) $X\sim \chi _{\nu }^{2}$ ${\tfrac {1}{X}}\sim \operatorname {Inv-} \chi _{\nu }^{2}\,$
La distribución chi-cuadrado es un caso especial de distribución de Pearson tipo III
Si y son independientes entonces ( distribución beta ) $X\sim \chi _{\nu _{1}}^{2}\,$ $Y\sim \chi _{\nu _{2}}^{2}\,$ ${\tfrac {X}{X+Y}}\sim \operatorname {Beta} ({\tfrac {\nu _{1}}{2}},{\tfrac {\nu _{2}}{2}})\,$
Si ( distribución uniforme ) entonces $X\sim \operatorname {U} (0,1)\,$ $-2\log(X)\sim \chi _{2}^{2}\,$
Si entonces $X_{i}\sim \operatorname {Laplace} (\mu ,\beta )\,$ $\sum _{i=1}^{n}{\frac {2|X_{i}-\mu |}{\beta }}\sim \chi _{2n}^{2}\,$
Si sigue la distribución normal generalizada (versión 1) con parámetros entonces ^[19] $X_{i}$ $\mu ,\alpha ,\beta$ $\sum _{i=1}^{n}{\frac {2|X_{i}-\mu |^{\beta }}{\alpha }}\sim \chi _{2n/\beta }^{2}\,$
La distribución chi-cuadrado es una transformación de la distribución de Pareto
La distribución t de Student es una transformación de la distribución chi-cuadrado
La distribución t de Student se puede obtener a partir de la distribución chi-cuadrado y la distribución normal.
La distribución beta no central se puede obtener como una transformación de la distribución chi-cuadrado y la distribución chi-cuadrado no central
La distribución t no central se puede obtener a partir de la distribución normal y la distribución chi-cuadrado.

Una variable chi-cuadrado con grados de libertad se define como la suma de los cuadrados de variables aleatorias normales estándar independientes . $k$ $k$

Si es un vector aleatorio gaussiano -dimensional con vector de media y matriz de covarianza de rangos , entonces se distribuye mediante chi-cuadrado con grados de libertad. $Y$ $k$ $\mu$ $k$ $C$ $X=(Y-\mu )^{T}C^{-1}(Y-\mu )$ $k$

La suma de los cuadrados de las variables gaussianas de varianza unitaria estadísticamente independientes que no tienen media cero produce una generalización de la distribución de chi-cuadrado denominada distribución de chi-cuadrado no central .

Si es un vector de variables aleatorias normales estándar iid y es una matriz simétrica e idempotente con rango , entonces la forma cuadrática tiene una distribución de chi-cuadrado con grados de libertad. $Y$ $k$ $A$ $k\times k$ $k-n$ $Y^{T}AY$ $k-n$

Si es una matriz de covarianza positiva-semidefinida con entradas diagonales estrictamente positivas, entonces para y un vector aleatorio independiente de tal que y entonces $\Sigma$ $p\times p$ $X\sim N(0,\Sigma )$ $w$ $p$ $X$ $w_{1}+\cdots +w_{p}=1$ $w_{i}\geq 0,i=1,\ldots ,p,$

{\frac {1}{\left({\frac {w_{1}}{X_{1}}},\ldots ,{\frac {w_{p}}{X_{p}}}\right)\Sigma \left({\frac {w_{1}}{X_{1}}},\ldots ,{\frac {w_{p}}{X_{p}}}\right)^{\top }}}\sim \chi _{1}^{2}.

^[17]

La distribución chi-cuadrado también está relacionada naturalmente con otras distribuciones derivadas de la gaussiana. En particular,

$Y$ tiene una distribución F , si , donde y son estadísticamente independientes. $Y\sim F(k_{1},k_{2})$ $Y={\frac {{X_{1}}/{k_{1}}}{{X_{2}}/{k_{2}}}}$ $X_{1}\sim \chi _{k_{1}}^{2}$ $X_{2}\sim \chi _{k_{2}}^{2}$
Si y son estadísticamente independientes, entonces . Si y no son independientes, entonces no se distribuye según el método de chi-cuadrado. $X_{1}\sim \chi _{k_{1}}^{2}$ $X_{2}\sim \chi _{k_{2}}^{2}$ $X_{1}+X_{2}\sim \chi _{k_{1}+k_{2}}^{2}$ $X_{1}$ $X_{2}$ $X_{1}+X_{2}$

Generalizaciones

La distribución chi-cuadrado se obtiene como la suma de los cuadrados de $k$ variables aleatorias gaussianas independientes, de media cero y varianza unitaria. Se pueden obtener generalizaciones de esta distribución sumando los cuadrados de otros tipos de variables aleatorias gaussianas. A continuación se describen varias de estas distribuciones.

Combinación lineal

Si son variables aleatorias de chi-cuadrado y , entonces la distribución de es un caso especial de una distribución de chi-cuadrado generalizada . No se conoce una expresión cerrada para esta distribución. Sin embargo, se puede aproximar de manera eficiente utilizando la propiedad de las funciones características de las variables aleatorias de chi-cuadrado. ^[20] $X_{1},\ldots ,X_{n}$ $a_{1},\ldots ,a_{n}\in \mathbb {R} _{>0}$ $X=\sum _{i=1}^{n}a_{i}X_{i}$

Distribuciones de chi-cuadrado

Distribución de chi-cuadrado no central

La distribución chi-cuadrado no central se obtiene de la suma de los cuadrados de variables aleatorias gaussianas independientes que tienen varianza unitaria y medias distintas de cero .

Distribución de chi-cuadrado generalizada

La distribución chi-cuadrado generalizada se obtiene a partir de la forma cuadrática $z'Az,$ donde $z$ es un vector gaussiano de media cero que tiene una matriz de covarianza arbitraria y $A$ es una matriz arbitraria.

Distribuciones gamma, exponencial y relacionadas

La distribución chi-cuadrado es un caso especial de la distribución gamma , ya que utiliza la parametrización de velocidad de la distribución gamma (o utiliza la parametrización de escala de la distribución gamma) donde $k$ es un número entero. $X\sim \chi _{k}^{2}$ $X\sim \Gamma \left({\frac {k}{2}},{\frac {1}{2}}\right)$ $X\sim \Gamma \left({\frac {k}{2}},2\right)$

Como la distribución exponencial también es un caso especial de la distribución gamma, también tenemos que si , entonces es una distribución exponencial . $X\sim \chi _{2}^{2}$ $X\sim \operatorname {Exp} \left({\frac {1}{2}}\right)$

La distribución de Erlang también es un caso especial de la distribución gamma y por lo tanto también tenemos que si con par , entonces Erlang se distribuye con parámetro de forma y parámetro de escala . $X\sim \chi _{k}^{2}$ $k$ $X$ $k/2$ $1/2$

Ocurrencia y aplicaciones

La distribución chi-cuadrado tiene numerosas aplicaciones en la estadística inferencial , por ejemplo, en las pruebas chi-cuadrado y en la estimación de varianzas . Entra en el problema de la estimación de la media de una población distribuida normalmente y en el problema de la estimación de la pendiente de una línea de regresión a través de su papel en la distribución t de Student . Entra en todos los problemas de análisis de varianza a través de su papel en la distribución F , que es la distribución de la razón de dos variables aleatorias chi-cuadrado independientes , cada una dividida por sus respectivos grados de libertad.

A continuación se presentan algunas de las situaciones más comunes en las que la distribución de chi-cuadrado surge de una muestra distribuida gaussiana.

Si son variables aleatorias iid , entonces donde . $X_{1},...,X_{n}$ $N(\mu ,\sigma ^{2})$ $\sum _{i=1}^{n}(X_{i}-{\overline {X_{i}}})^{2}\sim \sigma ^{2}\chi _{n-1}^{2}$ ${\overline {X_{i}}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}$
El cuadro siguiente muestra algunas estadísticas basadas en variables aleatorias independientes que tienen distribuciones de probabilidad relacionadas con la distribución de chi-cuadrado: $X_{i}\sim N(\mu _{i},\sigma _{i}^{2}),i=1,\ldots ,k$

La distribución de chi-cuadrado también se encuentra a menudo en la resonancia magnética . ^[21]

Métodos computacionales

Tabla deχ2valores vspag-valores

El valor - es la probabilidad de observar un estadístico de prueba al menos tan extremo en una distribución chi-cuadrado. En consecuencia, dado que la función de distribución acumulativa (CDF) para los grados de libertad (gl) apropiados da la probabilidad de haber obtenido un valor menos extremo que este punto, restando el valor de CDF de 1 se obtiene el valor p . Un valor p bajo , por debajo del nivel de significación elegido, indica significación estadística , es decir, evidencia suficiente para rechazar la hipótesis nula. Un nivel de significación de 0,05 se utiliza a menudo como el punto de corte entre resultados significativos y no significativos. ${\textstyle p}$

La siguiente tabla proporciona una serie de valores p que coinciden con los primeros 10 grados de libertad. $\chi ^{2}$

Estos valores se pueden calcular evaluando la función cuantil (también conocida como "CDF inversa" o "ICDF") de la distribución chi-cuadrado; ^[23] por ejemplo, la ICDF $de χ 2 para$ $p = 0,05$ y $df = 7$ produce $2,1673 \approx 2,17$ como en la tabla anterior, teniendo en cuenta que $1 - p$ es el valor p de la tabla.

Historia

Esta distribución fue descrita por primera vez por el geodesista y estadístico alemán Friedrich Robert Helmert en artículos de 1875-6, ^[24]^[25] donde calculó la distribución de muestreo de la varianza de la muestra de una población normal. Por ello, en alemán se la conocía tradicionalmente como distribución de Helmert ("Helmertiana") o "distribución de Helmert".

La distribución fue redescubierta independientemente por el matemático inglés Karl Pearson en el contexto de bondad de ajuste , para lo cual desarrolló su prueba de chi-cuadrado de Pearson , publicada en 1900, con una tabla calculada de valores publicada en (Elderton 1902), recopilada en (Pearson 1914, pp. xxxi–xxxiii, 26–28, Tabla XII). El nombre "chi-cuadrado" deriva en última instancia de la abreviatura de Pearson para el exponente en una distribución normal multivariante con la letra griega Chi , escribiendo $-½χ 2$ para lo que aparecería en la notación moderna como $-½ x T Σ -1 x$ (siendo Σ la matriz de covarianza ). ^[26] Sin embargo, la idea de una familia de "distribuciones de chi-cuadrado" no se debe a Pearson, sino que surgió como un desarrollo posterior debido a Fisher en la década de 1920. ^[24]

Véase también

Distribución de Chi
Distribución de chi-cuadrado inversa escalada
Distribución gamma
Distribución de chi-cuadrado generalizada
Distribución de chi-cuadrado no central
Prueba de chi-cuadrado de Pearson
Estadística de chi-cuadrado reducida
Distribución lambda de Wilks
La distribución seminormal modificada ^[27] con la función de densidad de probabilidad activada se da como , donde denota la función Psi de Fox–Wright . $(0,\infty )$ $f(x)={\frac {2\beta ^{\alpha /2}x^{\alpha -1}\exp(-\beta x^{2}+\gamma x)}{\Psi {\left({\frac {\alpha }{2}},{\frac {\gamma }{\sqrt {\beta }}}\right)}}}$ $\Psi (\alpha ,z)={}_{1}\Psi _{1}\left({\begin{matrix}\left(\alpha ,{\frac {1}{2}}\right)\\(1,0)\end{matrix}};z\right)$

Referencias

^ MA Sanders. «Función característica de la distribución central de chi-cuadrado» (PDF) . Archivado desde el original (PDF) el 2011-07-15 . Consultado el 2009-03-06 .
^ Weisstein, Eric W. "Distribución de chi-cuadrado". mathworld.wolfram.com . Consultado el 11 de octubre de 2024 .
^ Abramowitz, Milton ; Stegun, Irene Ann , eds. (1983) [junio de 1964]. "Capítulo 26". Manual de funciones matemáticas con fórmulas, gráficos y tablas matemáticas . Serie de Matemáticas Aplicadas. Vol. 55 (Novena reimpresión con correcciones adicionales de la décima impresión original con correcciones (diciembre de 1972); primera ed.). Washington DC; Nueva York: Departamento de Comercio de los Estados Unidos, Oficina Nacional de Normas; Dover Publications. pág. 940. ISBN 978-0-486-61272-0. LCCN 64-60036. MR 0167642. LCCN 65-12253.
^ NIST (2006). Manual de estadística de ingeniería: distribución de chi-cuadrado
^ abc Johnson, NL; Kotz, S.; Balakrishnan, N. (1994). "Distribuciones de chi-cuadrado que incluyen chi y Rayleigh". Distribuciones univariadas continuas . Vol. 1 (segunda edición). John Wiley and Sons. págs. 415–493. ISBN 978-0-471-58495-7.
^ Mood, Alexander; Graybill, Franklin A.; Boes, Duane C. (1974). Introducción a la teoría de la estadística (tercera edición). McGraw-Hill. págs. 241–246. ISBN 978-0-07-042864-5.
^ "La distribución de chi-cuadrado" (PDF) . Universidad de Regina .
^ Westfall, Peter H. (2013). Comprensión de los métodos estadísticos avanzados . Boca Raton, FL: CRC Press. ISBN 978-1-4665-1210-8.
^ Ramsey, PH (1988). "Evaluación de la aproximación normal a la prueba binomial". Revista de estadística educativa . 13 (2): 173–82. doi :10.2307/1164752. JSTOR 1164752.
^ ab Lancaster, HO (1969), La distribución de chi-cuadrado , Wiley
^ Dasgupta, Sanjoy DA; Gupta, Anupam K. (enero de 2003). "Una prueba elemental de un teorema de Johnson y Lindenstrauss" (PDF) . Estructuras aleatorias y algoritmos . 22 (1): 60–65. doi :10.1002/rsa.10073. S2CID 10327785 . Consultado el 1 de mayo de 2012 .
^ Distribución de chi-cuadrado, de MathWorld , consultado el 11 de febrero de 2009
^ MK Simon, Distribuciones de probabilidad que involucran variables aleatorias gaussianas , Nueva York: Springer, 2002, ecuación (2.35), ISBN 978-0-387-34657-1
^ Laurent, B.; Massart, P. (1 de octubre de 2000). "Estimación adaptativa de una función cuadrática mediante selección de modelo". Anales de estadística . 28 (5). doi : 10.1214/aos/1015957395 . ISSN 0090-5364. S2CID 116945590.
^ Box, Hunter y Hunter (1978). Estadísticas para experimentadores . Wiley. pág. 118. ISBN. 978-0-471-09315-2.
^ Bartlett, MS; Kendall, DG (1946). "El análisis estadístico de la heterogeneidad de varianza y la transformación logarítmica". Suplemento de la revista Journal of the Royal Statistical Society . 8 (1): 128–138. doi :10.2307/2983618. JSTOR 2983618.
^ ab Pillai, Natesh S. (2016). "Un encuentro inesperado con Cauchy y Lévy". Anales de Estadística . 44 (5): 2089–2097. arXiv : 1505.01957 . doi :10.1214/15-aos1407. S2CID 31582370.
^ Wilson, EB; Hilferty, MM (1931). "La distribución de chi-cuadrado". Proc. Natl. Sci. USA . 17 (12): 684–688. Bibcode :1931PNAS...17..684W. doi : 10.1073/pnas.17.12.684 . PMC 1076144 . PMID 16577411.
^ Bäckström, T.; Fischer, J. (enero de 2018). "Aleatorización rápida para codificación distribuida de baja tasa de bits de voz y audio" (PDF) . Transacciones IEEE/ACM sobre procesamiento de audio, voz y lenguaje . 26 (1): 19–30. doi :10.1109/TASLP.2017.2757601. S2CID 19777585.
^ Bausch, J. (2013). "Sobre el cálculo eficiente de una combinación lineal de variables aleatorias de chi-cuadrado con una aplicación en el conteo de vacíos de cadenas". J. Phys. A: Math. Theor . 46 (50): 505202. arXiv : 1208.2691 . Bibcode :2013JPhA...46X5202B. doi :10.1088/1751-8113/46/50/505202. S2CID 119721108.
^ den Dekker AJ, Sijbers J., (2014) "Distribuciones de datos en imágenes de resonancia magnética: una revisión", Physica Medica , [1]
^ Prueba de chi-cuadrado Archivado el 18 de noviembre de 2013 en Wayback Machine Tabla B.2. Dra. Jacqueline S. McLaughlin de la Universidad Estatal de Pensilvania. Citando a su vez: RA Fisher y F. Yates, Tablas estadísticas para la investigación biológica, agrícola y médica, 6.ª ed., Tabla IV. Se han corregido dos valores, 7,82 con 7,81 y 4,60 con 4,61.
^ "Distribución Chi-cuadrado | Tutorial R". www.r-tutor.com .
^ ab Hald 1998, pp. 633–692, 27. Distribuciones de muestreo bajo normalidad.
^ FR Helmert , "Ueber die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und über einige damit im Zusammenhange stehende Fragen", Zeitschrift für Mathematik und Physik 21, 1876, págs.
^ RL Plackett, Karl Pearson y la prueba de chi-cuadrado , International Statistical Review, 1983, 61f. Véase también Jeff Miller, Los primeros usos conocidos de algunas de las palabras de las matemáticas.
^ Sun, Jingchao; Kong, Maiying; Pal, Subhadip (22 de junio de 2021). "La distribución seminormal modificada: propiedades y un esquema de muestreo eficiente" (PDF) . Comunicaciones en estadística: teoría y métodos . 52 (5): 1591–1613. doi :10.1080/03610926.2021.1934700. ISSN 0361-0926. S2CID 237919587.

Lectura adicional

Hald, Anders (1998). Una historia de la estadística matemática desde 1750 hasta 1930. Nueva York: Wiley. ISBN 978-0-471-17912-2.
Elderton, William Palin (1902). "Tablas para probar la bondad de ajuste de la teoría a la observación". Biometrika . 1 (2): 155–163. doi :10.1093/biomet/1.2.155.
"Distribución de chi-cuadrado", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
Pearson, Karl (1914). "Sobre la probabilidad de que dos distribuciones independientes de frecuencia sean en realidad muestras de la misma población, con especial referencia a trabajos recientes sobre la identidad de cepas de tripanosoma". Biometrika . 10 : 85–154. doi :10.1093/biomet/10.1.85.

Enlaces externos

Los primeros usos de algunas palabras de las matemáticas: la entrada sobre Chi cuadrado tiene una breve historia
Notas del curso sobre pruebas de bondad de ajuste de Chi-cuadrado de la clase de Estadística 101 de la Universidad de Yale.
Demostración de Mathematica que muestra la distribución de muestreo de chi-cuadrado de varias estadísticas, por ejemplo, Σx², para una población normal
Algoritmo simple para aproximar la función de distribución de probabilidad y la función de distribución de probabilidad inversa para la distribución de chi-cuadrado con una calculadora de bolsillo
Valores de la distribución Chi-cuadrado