Prueba del K-cuadrado de D'Agostino

En estadística , la prueba K ² de D'Agostino , llamada así por Ralph D'Agostino , es una medida de bondad de ajuste de la desviación de la normalidad , es decir, la prueba tiene como objetivo medir la compatibilidad de los datos dados con la hipótesis nula de que los datos son una realización de variables aleatorias gaussianas independientes e idénticamente distribuidas. La prueba se basa en transformaciones de la curtosis y asimetría de la muestra , y tiene potencia solo contra las alternativas de que la distribución sea sesgada y/o cúrtica.

Asimetría y curtosis

En lo que sigue, { x _i } denota una muestra de n observaciones, g ₁ y g ₂ son la asimetría y la curtosis de la muestra , m _j son los momentos centrales de la muestra j -ésima y es la media de la muestra . Con frecuencia en la literatura relacionada con las pruebas de normalidad , la asimetría y la curtosis se denotan como √ β ₁ y β ₂ respectivamente. Tal notación puede ser incómoda ya que, por ejemplo, √ β ₁ puede ser una cantidad negativa. ${\estilo de visualización {\bar {x}}}$

La asimetría y la curtosis de la muestra se definen como

{\begin{aligned}&g_{1}={\frac {m_{3}}{m_{2}^{3/2}}}={\frac {{\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{3}}{\left({\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}\right)^{3/2}}}\ ,\\&g_{2}={\frac {m_{4}}{m_{2}^{2}}}-3={\frac {{\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{4}}{\left({\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}\right)^{2}}}-3\ .\end{aligned}}

Estas cantidades estiman de manera consistente la asimetría y la curtosis teóricas de la distribución, respectivamente. Además, si la muestra proviene de una población normal, entonces las distribuciones de muestras finitas exactas de la asimetría y la curtosis pueden analizarse en términos de sus medias μ ₁ , varianzas μ ₂ , asimetrías γ ₁ y curtosis γ ₂ . Esto lo hizo Pearson (1931), quien derivó las siguientes expresiones: ^{[ se necesita una mejor fuente ]}

{\begin{aligned}&\mu _{1}(g_{1})=0,\\&\mu _{2}(g_{1})={\frac {6(n-2)}{(n+1)(n+3)}},\\&\gamma _{1}(g_{1})\equiv {\frac {\mu _{3}(g_{1})}{\mu _{2}(g_{1})^{3/2}}}=0,\\&\gamma _{2}(g_{1})\equiv {\frac {\mu _{4}(g_{1})}{\mu _{2}(g_{1})^{2}}}-3={\frac {36(n-7)(n^{2}+2n-5)}{(n-2)(n+5)(n+7)(n+9)}}.\end{aligned}}

{\begin{aligned}&\mu _{1}(g_{2})=-{\frac {6}{n+1}},\\&\mu _{2}(g_{2})={\frac {24n(n-2)(n-3)}{(n+1)^{2}(n+3)(n+5)}},\\&\gamma _{1}(g_{2})\equiv {\frac {\mu _{3}(g_{2})}{\mu _{2}(g_{2})^{3/2}}}={\frac {6(n^{2}-5n+2)}{(n+7)(n+9)}}{\sqrt {\frac {6(n+3)(n+5)}{n(n-2)(n-3)}}},\\&\gamma _{2}(g_{2})\equiv {\frac {\mu _{4}(g_{2})}{\mu _{2}(g_{2})^{2}}}-3={\frac {36(15n^{6}-36n^{5}-628n^{4}+982n^{3}+5777n^{2}-6402n+900)}{n(n-3)(n-2)(n+7)(n+9)(n+11)(n+13)}}.\end{aligned}}

Por ejemplo, se puede esperar que una muestra con un tamaño n = 1000 extraída de una población con distribución normal tenga una asimetría de 0, DE 0,08 y una curtosis de 0, DE 0,15 , donde DE indica la desviación estándar. ^{[ cita requerida ]}

Asimetría y curtosis de la muestra transformada

La asimetría de la muestra g ₁ y la curtosis g ₂ son ambas asintóticamente normales. Sin embargo, la tasa de su convergencia al límite de distribución es frustrantemente lenta, especialmente para g ₂ . Por ejemplo, incluso con n = 5000 observaciones, la curtosis de la muestra g ₂ tiene una asimetría y una curtosis de aproximadamente 0,3, lo que no es despreciable. Para remediar esta situación, se ha sugerido transformar las cantidades g ₁ y g ₂ de una manera que haga que su distribución sea lo más cercana posible a la normal estándar.

En particular, D'Agostino y Pearson (1973) sugirieron la siguiente transformación para la asimetría de la muestra:

Z_{1}(g_{1})=\delta \operatorname {asinh} \left({\frac {g_{1}}{\alpha {\sqrt {\mu _{2}}}}}\right),

donde las constantes α y δ se calculan como

{\begin{aligned}&W^{2}={\sqrt {2\gamma _{2}+4}}-1,\\&\delta =1/{\sqrt {\ln W}},\\&\alpha ^{2}=2/(W^{2}-1),\end{aligned}}

y donde μ ₂ = μ ₂ ( g ₁ ) es la varianza de g ₁ , y γ ₂ = γ ₂ ( g ₁ ) es la curtosis — las expresiones dadas en la sección anterior.

De manera similar, Anscombe y Glynn (1983) sugirieron una transformación para g ₂ , que funciona razonablemente bien para tamaños de muestra de 20 o más:

Z_{2}(g_{2})={\sqrt {\frac {9A}{2}}}\left\{1-{\frac {2}{9A}}-\left({\frac {1-2/A}{1+{\frac {g_{2}-\mu _{1}}{\sqrt {\mu _{2}}}}{\sqrt {2/(A-4)}}}}\right)^{\!1/3}\right\},

dónde

A=6+{\frac {8}{\gamma _{1}}}\left({\frac {2}{\gamma _{1}}}+{\sqrt {1+4/\gamma _{1}^{2}}}\right),

y μ ₁ = μ ₁ ( g ₂ ), μ ₂ = μ ₂ ( g ₂ ), γ ₁ = γ ₁ ( g ₂ ) son las cantidades calculadas por Pearson.

GeneralK2estadística

Las estadísticas Z ₁ y Z ₂ se pueden combinar para producir una prueba ómnibus, capaz de detectar desviaciones de la normalidad debido a asimetría o curtosis (D'Agostino, Belanger y D'Agostino 1990):

K^{2}=Z_{1}(g_{1})^{2}+Z_{2}(g_{2})^{2}\,

Si la hipótesis nula de normalidad es verdadera, entonces K ^{2 tiene}una distribución aproximada de χ 2 con 2 grados de libertad.

Nótese que las estadísticas g ₁ , g ₂ no son independientes, solo no están correlacionadas. Por lo tanto, sus transformadas Z ₁ , Z ₂ también serán dependientes (Shenton y Bowman 1977), lo que hace que la validez de la aproximación χ ² sea cuestionable. Las simulaciones muestran que bajo la hipótesis nula, la estadística de prueba K ² se caracteriza por

Véase también

Referencias

Anscombe, FJ; Glynn, William J. (1983). "Distribución del estadístico de curtosis b ₂ para estadísticos normales". Biometrika . 70 (1): 227–234. doi :10.1093/biomet/70.1.227. JSTOR 2335960.
D'Agostino, Ralph B. (1970). "Transformación a normalidad de la distribución nula de g ₁ ". Biometrika . 57 (3): 679–681. doi :10.1093/biomet/57.3.679. JSTOR 2334794.
D'Agostino, Ralph B.; Pearson, ES (1973). "Pruebas de desviación de la normalidad. Resultados empíricos para las distribuciones de b ₂ y √b ₁ ". Biometrika . 60 (3): 613–622. JSTOR 2335012.
D'Agostino, Ralph B.; Belanger, Albert; D'Agostino, Ralph B. Jr. (1990). "Una sugerencia para utilizar pruebas de normalidad potentes e informativas" (PDF) . The American Statistician . 44 (4): 316–321. doi :10.2307/2684359. JSTOR 2684359. Archivado desde el original (PDF) el 25 de marzo de 2012.
Pearson, Egon S. (1931). "Nota sobre pruebas de normalidad". Biometrika . 22 (3/4): 423–424. doi :10.1093/biomet/22.3-4.423. JSTOR 2332104.
Shenton, LR; Bowman, Kimiko O. (1977). "Un modelo bivariado para la distribución de √b ₁ y b ₂ ". Revista de la Asociación Estadounidense de Estadística . 72 (357): 206–211. doi :10.1080/01621459.1977.10479940. JSTOR 2286939.