Prueba de alcance de Tukey

La prueba de rango de Tukey , también conocida como prueba de Tukey , método de Tukey , prueba de significancia honesta de Tukey o prueba HSD ( diferencia honestamente significativa ) de Tukey , ^[1] es un procedimiento de comparación múltiple de un solo paso y una prueba estadística . Puede utilizarse para interpretar correctamente la significancia estadística de la diferencia entre medias que han sido seleccionadas para comparación debido a sus valores extremos.

El método fue desarrollado e introducido inicialmente por John Tukey para su uso en Análisis de varianza (ANOVA) y, por lo general, solo se ha enseñado en relación con ANOVA. Sin embargo, la distribución de rango estudentizada utilizada para determinar el nivel de significancia de las diferencias consideradas en la prueba de Tukey tiene una aplicación mucho más amplia: es útil para investigadores que han buscado en los datos recopilados diferencias notables entre grupos, pero luego no pueden determinar válidamente cuán significativas son sus diferencias. La diferencia más destacada descubierta es el uso de distribuciones estadísticas estándar utilizadas para otras pruebas estadísticas convencionales, para las cuales los datos deben haber sido seleccionados al azar. Dado que cuando se comparan datos destacados, por definición no se seleccionaron al azar, sino específicamente porque eran extremos, se necesita una interpretación diferente y más estricta proporcionada por la frecuencia y el tamaño probables del rango estudentizado ; la práctica moderna de la " minería de datos " es un ejemplo de dónde se utiliza.

Desarrollo

La prueba lleva el nombre de John Tukey , ^[2] compara todos los pares posibles de medias y se basa en una distribución de rango estudentizado ( $q$ ) (esta distribución es similar a la distribución de $t$ de la prueba t . Ver más abajo). ^[3]^{[ se necesita cita completa ]}

La prueba de Tukey compara las medias de cada tratamiento con las medias de todos los demás tratamientos; es decir, se aplica simultáneamente al conjunto de todas las comparaciones por pares

\mu _{i}-\mu _{j}\ ,

e identifica cualquier diferencia entre dos medias que sea mayor que el error estándar esperado . El coeficiente de confianza para el conjunto , cuando todos los tamaños de muestra son iguales, es exactamente para cualquier Para tamaños de muestra desiguales, el coeficiente de confianza es mayor que En otras palabras, el método de Tukey es conservador cuando hay tamaños de muestra desiguales . $\ 1-\alpha \$ $\ \alpha ~:~0\leq \alpha \leq 1~.$ $\ 1-\alpha ~.$

Esta prueba suele ir seguida del procedimiento estadístico Compact Letter Display (CLD) para que el resultado de esta prueba sea más transparente para audiencias no estadísticas.

Suposiciones

Las observaciones que se prueban son independientes dentro y entre los grupos. ^{[ cita necesaria ]}
Los subgrupos asociados con cada media en la prueba se distribuyen normalmente . ^{[ cita necesaria ]}
Existe una varianza igual dentro de los subgrupos entre los subgrupos asociados con cada media en la prueba ( homogeneidad de la varianza ). ^{[ cita necesaria ]}

La estadística de prueba

La prueba de Tukey se basa en una fórmula muy similar a la de la prueba t . De hecho, la prueba de Tukey es esencialmente una prueba $t$ , excepto que corrige la tasa de error familiar .

La fórmula de la prueba de Tukey es

q_{\mathsf {s}}={\frac {\ \left|Y_{\mathsf {A}}-Y_{\mathsf {B}}\right|\ }{\ {\mathsf {SE} }\ }}\ ,

donde $Y$ _A e $Y$ _B son las dos medias que se comparan y SE es el error estándar de la suma de las medias. El valor $q$ _s es el estadístico de prueba de la muestra. (La notación $| x |$ significa el valor absoluto de $x$ ; la magnitud de $x$ con el signo establecido en $+$ , independientemente del signo original de $x$ ).

Este estadístico de prueba $q$ _s puede luego compararse con un valor $q para el nivel de significancia$ $α$ elegido de una tabla de distribución de rango estudentizado . Si el valor $q$ _{s es}mayor que el valor crítico $q α$ obtenido de la distribución, se dice que las dos medias son significativamente diferentes en el nivel ^[3] $\ \alpha ~:~0\leq \alpha \leq 1~.$

Dado que la hipótesis nula de la prueba de Tukey establece que todas las medias que se comparan provienen de la misma población (es decir, $μ$ $1$ $=$ $μ$ $2$ $=$ $μ$ $3$ $= ... =$ $μ$ $k$ ), las medias deben distribuirse normalmente (de acuerdo con el teorema del límite central ) con la misma desviación estándar del modelo $σ$ , estimada por el error estándar combinado , para todas las muestras; su cálculo se analiza en las siguientes secciones. Esto da lugar al supuesto de normalidad de la prueba de Tukey. $\ {\mathsf {SE}}\ ,$

La distribución del rango estudentizado ( q )

El método Tukey utiliza la distribución de rango estudentizado . Supongamos que tomamos una muestra de tamaño $n$ de cada una de $las k$ poblaciones con la misma distribución normal $N$ $($ $μ$ $,$ $σ$ $2$ $)$ y supongamos que es la más pequeña de estas medias muestrales y la más grande de estas medias muestrales, y supongamos que $S$ ² es la varianza de la muestra agrupada de estas muestras. Entonces la siguiente variable aleatoria tiene una distribución de rango Studentizado: $\ {\bar {y}}_{\mathsf {min}}\$ $\ {\bar {y}}_{\mathsf {max}}\$

q\equiv {\frac {\ {\overline {y}}_{\mathsf {max}}-{\overline {y}}_{\mathsf {min}}\ }{\ S{\sqrt {2/n}}\ }}

Esta definición del estadístico $q$ dada anteriormente es la base del valor críticamente significativo para $q α$ que se analiza a continuación y se basa en estos tres factores:

\ \alpha ~\quad

la tasa de error tipo I , o la probabilidad de rechazar una hipótesis nula verdadera;

\ k~\quad

el número de subpoblaciones que se comparan;

\ {\mathsf {df}}\quad

el número de grados de libertad para cada media

( df = $N$ $-$ $k$ ) donde $N$ es el número total de observaciones).

La distribución de $q$ ha sido tabulada y aparece en muchos libros de texto de estadística. En algunas tablas la distribución de $q$ se ha tabulado sin el factor. Para entender qué tabla es, podemos calcular el resultado para $k$ $= 2$ y compararlo con el resultado de la distribución t de Student con los mismos grados de libertad y el mismo $α$ . Además, R ofrece una función de distribución acumulativa ( ) y una función cuantil ( ) para $q$ . $\ {\sqrt {2\ }}\$ ptukeyqtukey

Límites de confianza

Los límites de confianza de Tukey para todas las comparaciones por pares con un coeficiente de confianza de al menos $1 -$ $α$ son

{\bar {y}}_{i\bullet }-{\bar {y}}_{j\bullet }\ \pm \ {\frac {\ q_{\ \alpha \ ;\ k\ ; \ Nk}\ }{\ {\sqrt {2\ }}\ }}\ {\widehat {\sigma }}_{\varepsilon }\ {\sqrt {{\frac {2}{n}}\ }} \quad :\quad i,\ j=1,\ldots ,k\quad i\neq j~.

Observe que el estimador puntual y la varianza estimada son los mismos que los de una comparación única por pares. La única diferencia entre los límites de confianza para comparaciones simultáneas y los de una comparación única es el múltiplo de la desviación estándar estimada.

También tenga en cuenta que los tamaños de muestra deben ser iguales cuando se utiliza el enfoque de rango estudentizado. es la desviación estándar de todo el diseño, no solo la de los dos grupos que se comparan. Es posible trabajar con tamaños de muestra desiguales. En este caso, hay que calcular la desviación estándar estimada para cada comparación por pares formalizada por Clyde Kramer en 1956, por lo que el procedimiento para tamaños de muestra desiguales a veces se denomina método de Tukey-Kramer, que es el siguiente: $\ {\widehat {\sigma }}_{\varepsilon }\$

{\bar {y}}_{i\bullet }-{\bar {y}}_{j\bullet }\ \pm \ {\frac {\ q_{\ \alpha \ ;\ k\ ; \ Nk}\ }{\ {\sqrt {2\ }}\ }}\ {\widehat {\sigma }}_{\varepsilon }\ {\sqrt {\ {\frac {\ 1\ }{n_{i }}}\ +\ {\frac {\ 1\ }{n_{j}}}\ }}\

donde $n i$ y $n j$ son los tamaños de los grupos $i$ y $j$ respectivamente. También se aplican los grados de libertad para todo el diseño.

Comparación de las pruebas ANOVA y Tukey-Kramer

Tanto la prueba ANOVA como la de Tukey-Kramer se basan en los mismos supuestos. Sin embargo, estas dos pruebas para $k$ grupos (es decir, $μ$ $1$ $=$ $μ$ $2$ $= ... =$ $μ$ $k$ ) pueden dar lugar a contradicciones lógicas cuando $k$ $> 2$ , incluso si los supuestos se cumplen.

Es posible generar un conjunto de muestras pseudoaleatorias de medida estrictamente positiva de modo que la hipótesis $μ$ $1$ $=$ $μ$ $2$ se rechace en el nivel de significancia mientras que $μ$ $1$ $=$ $μ$ $2$ $=$ $μ$ $3$ no se rechace ni siquiera en ^[4] $\ 1-\alpha >0,95\$ $\ 1-\alpha =0,975~.$

Ver también

Referencias

^ Lowry, Richard. "ANOVA unidireccional - muestras independientes". Vassar.edu . Archivado desde el original el 17 de octubre de 2008 . Consultado el 4 de diciembre de 2008 .
También se describe ocasionalmente como "honestamente", ver, por ejemplo
Morrison, S.; Sosnoff, JJ; Heffernan, KS; Jae, SY; Fernhall, B. (2013). "Envejecimiento, hipertensión y temblor fisiológico: la contribución del impulso cardiobalístico a la tremorgénesis en adultos mayores". Revista de Ciencias Neurológicas . 326 (1–2): 68–74. doi :10.1016/j.jns.2013.01.016. PMID 23385002.
^ Tukey, John (1949). "Comparación de medias individuales en el Análisis de Varianza". Biometría . 5 (2): 99-114. doi :10.2307/3001913. JSTOR 3001913. PMID 18151955.
^ ab Linton, LR; Más duro, LD (2007). Apuntes de conferencias (Informe). Biología 315: Biología cuantitativa. Calgary, AB: Universidad de Calgary.
^ Gurvich, V.; Naumová, M. (2021). "Contradicciones lógicas en las pruebas de comparaciones múltiples ANOVA unidireccional y Tukey-Kramer con más de dos grupos de observaciones". Simetría . 13 (8): 1387. arXiv : 2104.07552 . doi : 10.3390/sym13081387 .

Otras lecturas

Montgomery, Douglas C. (2013). Diseño y análisis de experimentos (8ª ed.). Wiley. Sección 3.5.7.

enlaces externos

"El método de Tukey". Manual electrónico de métodos estadísticos. itl.nist.gov/div898/handbook . SEMATEC. Instituto Nacional de Estándares y Tecnología / Departamento de Comercio de EE. UU .