La prueba de rango de Tukey , también conocida como prueba de Tukey , método de Tukey , prueba de significación honesta de Tukey o prueba HSD ( diferencia honestamente significativa ) de Tukey , [1] es un procedimiento de comparación múltiple de un solo paso y una prueba estadística . Se puede utilizar para interpretar correctamente la significación estadística de la diferencia entre medias que se han seleccionado para la comparación debido a sus valores extremos.
El método fue desarrollado e introducido inicialmente por John Tukey para su uso en el análisis de varianza (ANOVA), y por lo general sólo se ha enseñado en relación con el ANOVA. Sin embargo, la distribución de rango estudentizado utilizada para determinar el nivel de significancia de las diferencias consideradas en la prueba de Tukey tiene una aplicación mucho más amplia: es útil para los investigadores que han buscado en sus datos recopilados diferencias notables entre grupos, pero luego no pueden determinar de manera válida cuán significativa es la diferencia destacada descubierta utilizando distribuciones estadísticas estándar utilizadas para otras pruebas estadísticas convencionales, para las cuales los datos deben haber sido seleccionados al azar. Dado que cuando se comparan datos destacados, por definición no se seleccionaron al azar, sino que se eligieron específicamente porque eran extremos, necesita una interpretación diferente y más estricta proporcionada por la frecuencia probable y el tamaño del rango estudentizado ; la práctica moderna de " minería de datos " es un ejemplo en el que se utiliza.
La prueba recibe su nombre de John Tukey , [2] compara todos los pares de medias posibles y se basa en una distribución de rango estudentizado ( q ) (esta distribución es similar a la distribución de t de la prueba t . Véase más abajo). [3] [ cita completa necesaria ]
La prueba de Tukey compara las medias de cada tratamiento con las medias de todos los demás tratamientos; es decir, se aplica simultáneamente al conjunto de todas las comparaciones por pares.
e identifica cualquier diferencia entre dos medias que sea mayor que el error estándar esperado . El coeficiente de confianza para el conjunto , cuando todos los tamaños de muestra son iguales, es exactamente para cualquier Para tamaños de muestra desiguales, el coeficiente de confianza es mayor que En otras palabras, el método de Tukey es conservador cuando hay tamaños de muestra desiguales .
Esta prueba suele ir seguida del procedimiento estadístico Compact Letter Display (CLD) para que el resultado de esta prueba sea más transparente para el público no estadístico.
La prueba de Tukey se basa en una fórmula muy similar a la de la prueba t . De hecho, la prueba de Tukey es esencialmente una prueba t , excepto que corrige la tasa de error por familia .
La fórmula para la prueba de Tukey es
donde Y A e Y B son las dos medias que se comparan y SE es el error estándar de la suma de las medias. El valor q s es la estadística de prueba de la muestra. (La notación | x | significa el valor absoluto de x ; la magnitud de x con el signo establecido en + , independientemente del signo original de x .)
Esta estadística de prueba q s se puede comparar con un valor q para el nivel de significancia elegido α de una tabla de la distribución de rango estudentizado . Si el valor q s es mayor que el valor crítico q α obtenido de la distribución, se dice que las dos medias son significativamente diferentes en el nivel [3]
Dado que la hipótesis nula de la prueba de Tukey establece que todas las medias que se comparan son de la misma población (es decir, μ 1 = μ 2 = μ 3 = ... = μ k ), las medias deberían estar distribuidas normalmente (de acuerdo con el teorema del límite central ) con la misma desviación estándar del modelo σ , estimada por el error estándar fusionado , para todas las muestras; su cálculo se analiza en las siguientes secciones. Esto da lugar al supuesto de normalidad de la prueba de Tukey.
El método de Tukey utiliza la distribución de rango estudentizado . Supongamos que tomamos una muestra de tamaño n de cada una de las k poblaciones con la misma distribución normal N ( μ , σ 2 ) y suponemos que es la más pequeña de estas medias muestrales y es la más grande de estas medias muestrales, y supongamos que S 2 es la varianza muestral agrupada de estas muestras. Entonces, la siguiente variable aleatoria tiene una distribución de rango estudentizado:
Esta definición de la estadística q dada anteriormente es la base del valor críticamente significativo para q α que se analiza a continuación, y se basa en estos tres factores:
( df = N − k ) donde N es el número total de observaciones.)
La distribución de q ha sido tabulada y aparece en muchos libros de texto sobre estadística. En algunas tablas, la distribución de q ha sido tabulada sin el factor. Para entender de qué tabla se trata, podemos calcular el resultado para k = 2 y compararlo con el resultado de la distribución t de Student con los mismos grados de libertad y el mismo α .
Además, R ofrece una función de distribución acumulativa ( ) y una función cuantil ( ) para q . ptukey
qtukey
Los límites de confianza de Tukey para todas las comparaciones por pares con un coeficiente de confianza de al menos 1 − α son
Observe que el estimador puntual y la varianza estimada son los mismos que los de una comparación simple por pares. La única diferencia entre los límites de confianza para comparaciones simultáneas y los de una comparación simple es el múltiplo de la desviación estándar estimada.
También tenga en cuenta que los tamaños de muestra deben ser iguales cuando se utiliza el método de rango estudentizado. es la desviación estándar de todo el diseño, no solo de los dos grupos que se comparan. Es posible trabajar con tamaños de muestra desiguales. En este caso, se debe calcular la desviación estándar estimada para cada comparación por pares, tal como lo formalizó Clyde Kramer en 1956, por lo que el procedimiento para tamaños de muestra desiguales a veces se conoce como el método de Tukey-Kramer , que es el siguiente:
donde n i y n j son los tamaños de los grupos i y j respectivamente. También se aplican los grados de libertad para todo el diseño.
Tanto las pruebas ANOVA como las de Tukey-Kramer se basan en los mismos supuestos. Sin embargo, estas dos pruebas para k grupos (es decir, μ 1 = μ 2 = ... = μ k ) pueden dar lugar a contradicciones lógicas cuando k > 2 , incluso si los supuestos se cumplen.
Es posible generar un conjunto de muestras pseudoaleatorias de medida estrictamente negativa tal que la hipótesis μ 1 = μ 2 sea rechazada en el nivel de significancia mientras que μ 1 = μ 2 = μ 3 no sea rechazada incluso en [4].