La prueba de rango de Tukey , también conocida como prueba de Tukey , método de Tukey , prueba de significancia honesta de Tukey o prueba HSD ( diferencia honestamente significativa ) de Tukey , [1] es un procedimiento de comparación múltiple de un solo paso y una prueba estadística . Puede utilizarse para interpretar correctamente la significancia estadística de la diferencia entre medias que han sido seleccionadas para comparación debido a sus valores extremos.
El método fue desarrollado e introducido inicialmente por John Tukey para su uso en Análisis de varianza (ANOVA) y, por lo general, solo se ha enseñado en relación con ANOVA. Sin embargo, la distribución de rango estudentizada utilizada para determinar el nivel de significancia de las diferencias consideradas en la prueba de Tukey tiene una aplicación mucho más amplia: es útil para investigadores que han buscado en los datos recopilados diferencias notables entre grupos, pero luego no pueden determinar válidamente cuán significativas son sus diferencias. La diferencia más destacada descubierta es el uso de distribuciones estadísticas estándar utilizadas para otras pruebas estadísticas convencionales, para las cuales los datos deben haber sido seleccionados al azar. Dado que cuando se comparan datos destacados, por definición no se seleccionaron al azar, sino específicamente porque eran extremos, se necesita una interpretación diferente y más estricta proporcionada por la frecuencia y el tamaño probables del rango estudentizado ; la práctica moderna de la " minería de datos " es un ejemplo de dónde se utiliza.
La prueba lleva el nombre de John Tukey , [2] compara todos los pares posibles de medias y se basa en una distribución de rango estudentizado ( q ) (esta distribución es similar a la distribución de t de la prueba t . Ver más abajo). [3] [ se necesita cita completa ]
La prueba de Tukey compara las medias de cada tratamiento con las medias de todos los demás tratamientos; es decir, se aplica simultáneamente al conjunto de todas las comparaciones por pares
e identifica cualquier diferencia entre dos medias que sea mayor que el error estándar esperado . El coeficiente de confianza para el conjunto , cuando todos los tamaños de muestra son iguales, es exactamente para cualquier Para tamaños de muestra desiguales, el coeficiente de confianza es mayor que En otras palabras, el método de Tukey es conservador cuando hay tamaños de muestra desiguales .
Esta prueba suele ir seguida del procedimiento estadístico Compact Letter Display (CLD) para que el resultado de esta prueba sea más transparente para audiencias no estadísticas.
La prueba de Tukey se basa en una fórmula muy similar a la de la prueba t . De hecho, la prueba de Tukey es esencialmente una prueba t , excepto que corrige la tasa de error familiar .
La fórmula de la prueba de Tukey es
donde Y A e Y B son las dos medias que se comparan y SE es el error estándar de la suma de las medias. El valor q s es el estadístico de prueba de la muestra. (La notación | x | significa el valor absoluto de x ; la magnitud de x con el signo establecido en + , independientemente del signo original de x ).
Este estadístico de prueba q s puede luego compararse con un valor q para el nivel de significancia α elegido de una tabla de distribución de rango estudentizado . Si el valor q s es mayor que el valor crítico q α obtenido de la distribución, se dice que las dos medias son significativamente diferentes en el nivel [3]
Dado que la hipótesis nula de la prueba de Tukey establece que todas las medias que se comparan provienen de la misma población (es decir, μ 1 = μ 2 = μ 3 = ... = μ k ), las medias deben distribuirse normalmente (de acuerdo con el teorema del límite central ) con la misma desviación estándar del modelo σ , estimada por el error estándar combinado , para todas las muestras; su cálculo se analiza en las siguientes secciones. Esto da lugar al supuesto de normalidad de la prueba de Tukey.
El método Tukey utiliza la distribución de rango estudentizado . Supongamos que tomamos una muestra de tamaño n de cada una de las k poblaciones con la misma distribución normal N ( μ , σ 2 ) y supongamos que es la más pequeña de estas medias muestrales y la más grande de estas medias muestrales, y supongamos que S 2 es la varianza de la muestra agrupada de estas muestras. Entonces la siguiente variable aleatoria tiene una distribución de rango Studentizado:
Esta definición del estadístico q dada anteriormente es la base del valor críticamente significativo para q α que se analiza a continuación y se basa en estos tres factores:
( df = N − k ) donde N es el número total de observaciones).
La distribución de q ha sido tabulada y aparece en muchos libros de texto de estadística. En algunas tablas la distribución de q se ha tabulado sin el factor. Para entender qué tabla es, podemos calcular el resultado para k = 2 y compararlo con el resultado de la distribución t de Student con los mismos grados de libertad y el mismo α .
Además, R ofrece una función de distribución acumulativa ( ) y una función cuantil ( ) para q . ptukey
qtukey
Los límites de confianza de Tukey para todas las comparaciones por pares con un coeficiente de confianza de al menos 1 − α son
Observe que el estimador puntual y la varianza estimada son los mismos que los de una comparación única por pares. La única diferencia entre los límites de confianza para comparaciones simultáneas y los de una comparación única es el múltiplo de la desviación estándar estimada.
También tenga en cuenta que los tamaños de muestra deben ser iguales cuando se utiliza el enfoque de rango estudentizado. es la desviación estándar de todo el diseño, no solo la de los dos grupos que se comparan. Es posible trabajar con tamaños de muestra desiguales. En este caso, hay que calcular la desviación estándar estimada para cada comparación por pares formalizada por Clyde Kramer en 1956, por lo que el procedimiento para tamaños de muestra desiguales a veces se denomina método de Tukey-Kramer, que es el siguiente:
donde n i y n j son los tamaños de los grupos i y j respectivamente. También se aplican los grados de libertad para todo el diseño.
Tanto la prueba ANOVA como la de Tukey-Kramer se basan en los mismos supuestos. Sin embargo, estas dos pruebas para k grupos (es decir, μ 1 = μ 2 = ... = μ k ) pueden dar lugar a contradicciones lógicas cuando k > 2 , incluso si los supuestos se cumplen.
Es posible generar un conjunto de muestras pseudoaleatorias de medida estrictamente positiva de modo que la hipótesis μ 1 = μ 2 se rechace en el nivel de significancia mientras que μ 1 = μ 2 = μ 3 no se rechace ni siquiera en [4]