Prueba de normalidad en estadística frecuentista
La prueba de Shapiro-Wilk es una prueba de normalidad publicada en 1965 por Samuel Sanford Shapiro y Martin Wilk . [1]
Teoría
La prueba de Shapiro-Wilk prueba la hipótesis nula de que una muestra x 1 , ..., x n proviene de una población con distribución normal . La estadística de prueba es
dónde
- con paréntesis encierra el índice del subíndice i es el estadístico de orden i , es decir, el número i más pequeño en la muestra (que no debe confundirse con ).
- es la media de la muestra.
Los coeficientes vienen dados por: [1]
donde C es una norma vectorial : [2]
y el vector m ,
está formada por los valores esperados de las estadísticas de orden de variables aleatorias independientes e idénticamente distribuidas muestreadas de la distribución normal estándar; finalmente, es la matriz de covarianza de esas estadísticas de orden normal. [3]
No existe un nombre para la distribución de . Los valores de corte para las estadísticas se calculan mediante simulaciones de Monte Carlo. [2]
Interpretación
La hipótesis nula de esta prueba es que la población se distribuye normalmente. Por lo tanto, si el valor p es menor que el nivel alfa elegido , entonces la hipótesis nula se rechaza y hay evidencia de que los datos probados no se distribuyen normalmente. Por otro lado, si el valor p es mayor que el nivel alfa elegido, entonces la hipótesis nula (que los datos provienen de una población distribuida normalmente) no puede rechazarse (por ejemplo, para un nivel alfa de .05, un conjunto de datos con un valor p menor que .05 rechaza la hipótesis nula de que los datos provienen de una población distribuida normalmente; en consecuencia, un conjunto de datos con un valor p mayor que el valor alfa .05 no rechaza la hipótesis nula de que los datos provienen de una población distribuida normalmente). [4]
Como la mayoría de las pruebas de significancia estadística , si el tamaño de la muestra es suficientemente grande, esta prueba puede detectar incluso desviaciones triviales de la hipótesis nula (es decir, aunque puede haber algún efecto estadísticamente significativo , puede ser demasiado pequeño para tener alguna significancia práctica); por lo tanto, generalmente es aconsejable una investigación adicional del tamaño del efecto , por ejemplo, un gráfico Q–Q en este caso. [5]
Análisis de potencia
La simulación de Monte Carlo ha descubierto que Shapiro–Wilk tiene la mejor potencia para una significancia dada , seguido de cerca por Anderson–Darling al comparar Shapiro–Wilk, Kolmogorov–Smirnov y Lilliefors . [6]
Aproximación
Royston propuso un método alternativo para calcular el vector de coeficientes al proporcionar un algoritmo para calcular valores que ampliaron el tamaño de la muestra de 50 a 2000. [7] Esta técnica se utiliza en varios paquetes de software, incluidos GraphPad Prism, Stata, [8] [9] SPSS y SAS. [10] Rahman y Govidarajulu ampliaron el tamaño de la muestra hasta 5000. [11]
Véase también
Referencias
- ^ ab Shapiro, SS; Wilk, MB (1965). "Una prueba de análisis de varianza para normalidad (muestras completas)". Biometrika . 52 (3–4): 591–611. doi :10.1093/biomet/52.3-4.591. JSTOR 2333709. MR 0205384.pág. 593
- ^ de Richard M. Dudley (2015). "Pruebas de normalidad de Shapiro-Wilk y otras relacionadas" (PDF) . Consultado el 16 de junio de 2022 .
- ^ Davis, CS; Stephens, MA (1978). Matriz de covarianza de estadísticas de orden normal (PDF) (Informe técnico). Departamento de Estadística, Universidad de Stanford, Stanford, California. Informe técnico n.º 14. Consultado el 17 de junio de 2022 .
- ^ "¿Cómo interpreto la prueba de Shapiro-Wilk para normalidad?". JMP . 2004 . Consultado el 24 de marzo de 2012 .
- ^ Field, Andy (2009). Descubrimiento de estadísticas con SPSS (3.ª ed.). Los Ángeles [es decir, Thousand Oaks, California]: SAGE Publications. pág. 143. ISBN 978-1-84787-906-6.
- ^ Razali, Nornadiah; Wah, Yap Bee (2011). "Comparaciones de potencia de las pruebas de Shapiro–Wilk, Kolmogorov–Smirnov, Lilliefors y Anderson–Darling". Journal of Statistical Modeling and Analytics . 2 (1): 21–33 . Consultado el 30 de marzo de 2017 .
- ^ Royston, Patrick (septiembre de 1992). "Aproximación de la prueba W de Shapiro–Wilk para la no normalidad". Estadística y computación . 2 (3): 117–119. doi :10.1007/BF01891203. S2CID 122446146.
- ^ Royston, Patrick. "Pruebas Shapiro-Wilk y Shapiro-Francia". Boletín técnico de Stata, StataCorp LP . 1 (3).
- ^ Pruebas de normalidad de Shapiro-Wilk y Shapiro-Francia
- ^ Park, Hun Myoung (2002–2008). «Análisis univariado y prueba de normalidad con SAS, Stata y SPSS». [documento de trabajo] . Consultado el 29 de julio de 2023 .
- ^ Rahman y Govidarajulu (1997). "Una modificación de la prueba de Shapiro y Wilk para normalidad". Revista de Estadística Aplicada . 24 (2): 219–236. doi :10.1080/02664769723828.
Enlaces externos
- Ejemplo resuelto con Excel
- Algoritmo AS R94 (Shapiro Wilk) Código FORTRAN
- Análisis exploratorio utilizando la prueba de normalidad de Shapiro-Wilk en R
- Estadísticas reales con Excel: la prueba expandida de Shapiro-Wilk