En estadística, la prueba de Grubbs o prueba de Grubbs (nombrada en honor a Frank E. Grubbs , quien publicó la prueba en 1950 [1] ), también conocida como prueba de residuo normalizado máximo o prueba de desviación estudentizada extrema , es una prueba utilizada para detectar valores atípicos en un conjunto de datos univariados que se supone provienen de una población distribuida normalmente .
La prueba de Grubbs se basa en el supuesto de normalidad . Es decir, antes de aplicar la prueba de Grubbs se debe verificar que los datos se puedan aproximar razonablemente mediante una distribución normal. [2]
La prueba de Grubbs detecta un valor atípico a la vez. Este valor atípico se elimina del conjunto de datos y la prueba se repite hasta que no se detectan valores atípicos. Sin embargo, varias iteraciones cambian las probabilidades de detección y la prueba no se debe utilizar para tamaños de muestra de seis o menos, ya que con frecuencia etiqueta la mayoría de los puntos como valores atípicos. [3]
La prueba de Grubbs se define para las siguientes hipótesis :
La estadística de prueba de Grubbs se define como
donde y denotan la media de la muestra y la desviación estándar , respectivamente. La estadística de prueba de Grubbs es la desviación absoluta más grande de la media de la muestra en unidades de la desviación estándar de la muestra.
Esta es la prueba de dos colas , para la cual se rechaza la hipótesis de que no hay valores atípicos en el nivel de significancia α si
con t α/(2 N ), N −2 denota el valor crítico superior de la distribución t con N − 2 grados de libertad y un nivel de significancia de α/(2 N ).
La prueba de Grubbs también se puede definir como una prueba unilateral, reemplazando α/(2 N ) por α/ N . Para probar si el valor mínimo es un valor atípico, la estadística de prueba es
donde Y min denota el valor mínimo. Para comprobar si el valor máximo es un valor atípico, la estadística de prueba es
donde Y max denota el valor máximo.
Se pueden utilizar varias técnicas gráficas para detectar valores atípicos. Un gráfico de secuencia de series simple , un gráfico de cajas o un histograma deberían mostrar los puntos claramente atípicos. Un gráfico de probabilidad normal también puede ser útil.
Este artículo incorpora material de dominio público del Instituto Nacional de Estándares y Tecnología.