stringtranslate.com

La nueva prueba de rango múltiple de Duncan

En estadística , la nueva prueba de rangos múltiples ( MRT ) de Duncan es un procedimiento de comparación múltiple desarrollado por David B. Duncan en 1955. La MRT de Duncan pertenece a la clase general de procedimientos de comparación múltiple que utilizan el estadístico de rango estudentizado q r para comparar conjuntos de medias.

David B. Duncan desarrolló esta prueba como una modificación del método Student-Newman-Keuls que tendría mayor poder. La MRT de Duncan protege especialmente contra errores de falsos negativos (Tipo II) a expensas de tener un mayor riesgo de cometer errores de falsos positivos (Tipo I) . La prueba de Duncan se utiliza comúnmente en agronomía y otras investigaciones agrícolas.

El resultado de la prueba es un conjunto de subconjuntos de medias, donde se ha encontrado que en cada subconjunto las medias no son significativamente diferentes entre sí.

Esta prueba suele ir seguida de la metodología Compact Letter Display (CLD) que hace que el resultado de dicha prueba sea mucho más accesible para audiencias no estadísticas.

Definición

Supuestos:
1. Una muestra de medias observadas , que se han extraído independientemente de n poblaciones normales con medias "verdaderas", respectivamente. 2.Un error estándar común . Este error estándar se desconoce, pero está disponible la estimación habitual , que es independiente de las medias observadas y se basa en una serie de grados de libertad , denotados por . (Más precisamente, tiene la propiedad de que se distribuye con grados de libertad, independientemente de las medias muestrales).

La definición exacta de la prueba es:

La diferencia entre dos medias cualesquiera en un conjunto de n medias es significativa siempre que el rango de todos y cada uno de los subconjuntos que contienen las medias dadas sea significativo según una prueba de rango de niveles donde , y es el número de medias en el subconjunto en cuestión.

Excepción: La única excepción a esta regla es que ninguna diferencia entre dos medias puede declararse significativa si las dos medias en cuestión están contenidas en un subconjunto de medias que tiene un rango no significativo.

Procedimiento

El procedimiento consiste en una serie de comparaciones por pares entre medias. Cada comparación se realiza a un nivel de significancia , definido por el número de medias que separan las dos medias comparadas ( para separar medias). Las pruebas se realizan de forma secuencial, donde el resultado de una prueba determina qué prueba se realiza a continuación.

Las pruebas se realizan en el siguiente orden: el mayor menos el menor, el mayor menos el segundo menor, hasta el mayor menos el segundo mayor; luego el segundo más grande menos el más pequeño, el segundo más grande menos el segundo más pequeño, y así sucesivamente, terminando con el segundo más pequeño menos el más pequeño.

Con una sola excepción, que se indica a continuación, cada diferencia es significativa si excede el rango significativo más corto correspondiente; de lo contrario no es significativo. Donde el rango significativo más corto es el rango estudentizado significativo , multiplicado por el error estándar. El rango significativo más corto se designará como , donde es el número que significa en el subconjunto. La única excepción a esta regla es que ninguna diferencia entre dos medias puede declararse significativa si los dos medios en cuestión están contenidos en un subconjunto de medias que tiene un rango no significativo.

Un algoritmo para realizar la prueba es el siguiente:

 1. Clasifique las medias muestrales, de mayor a menor. 2. Para cada media muestral, de mayor a menor, haga lo siguiente: 2,1 para cada media muestral, (denotada ), para las más pequeñas hasta . 2.1.1 comparar con el valor crítico , 2.1.2 si no excede el valor crítico, el subconjunto se declara no significativamente diferente : 2.1.2.1 Ir a la siguiente iteración del bucle 2. 2.1.3 De lo contrario, continúa con el bucle 2.1.

Valores criticos

La prueba de rangos múltiples de Duncan utiliza la distribución de rangos estudentizados para determinar valores críticos para comparaciones entre medias. Tenga en cuenta que las diferentes comparaciones entre medias pueden diferir según sus niveles de significancia, ya que el nivel de significancia está sujeto al tamaño del subconjunto de medias en cuestión.

Denotemos como el cuantil de la distribución del rango estudentizado , con p observaciones y grados de libertad para la segunda muestra (consulte el rango estudentizado para obtener más información). Denotemos como valor crítico estandarizado, dado por la regla:

Si p=2 De lo contrario


El rango crítico más corto (el valor crítico real de la prueba) se calcula como: . Para ->∞, existe una tabulación para un valor exacto de Q (ver enlace). Aquí se necesita una palabra de precaución: las notaciones para Q y R no son las mismas en toda la literatura, donde a veces Q se denota como el intervalo significativo más corto y R como el cuantil significativo para la distribución de rangos estudentizados (el artículo de Duncan de 1955 usa ambas notaciones en diferentes formas). partes).

Ejemplo numérico

Veamos el ejemplo de 5 medios de tratamiento:


Con un error estándar de , y (grados de libertad para estimar el error estándar). Utilizando una tabulación conocida para Q, se alcanzan los valores de :




Ahora podemos obtener los valores del rango significativo más corto, mediante la fórmula:

Alcanzando:




Luego, se prueban las diferencias observadas entre las medias, comenzando con la más grande versus la más pequeña, que se compararía con el rango menos significativo . Luego, se calcula la diferencia entre la más grande y la segunda más pequeña y se compara con la diferencia menos significativa . Si una diferencia observada es mayor que el rango significativo más corto correspondiente, entonces concluimos que el par de medias en cuestión es significativamente diferente. Si una diferencia observada es menor que el rango significativo más corto correspondiente, todas las diferencias que comparten la misma media superior se consideran insignificantes, para evitar contradicciones (las diferencias que comparten la misma media superior son más cortas por construcción). Para nuestro caso, la comparación arrojará:














Vemos que existen diferencias significativas entre todos los pares de tratamientos excepto (T3,T2) y (T5,T1). A continuación se muestra un gráfico que subraya aquellas medias que no son significativamente diferentes:
T1 T5 T2 T3 T4

Niveles de protección y significancia basados ​​en grados de libertad

La nueva prueba de rango múltiple propuesta por Duncan utiliza niveles de protección especiales basados ​​en grados de libertad . Sea el nivel de protección para probar la importancia de una diferencia entre dos medias; es decir, la probabilidad de que no se encuentre una diferencia significativa entre dos medias si las medias poblacionales son iguales. Duncan razona que uno tiene p-1 grados de libertad para probar p media clasificada y, por lo tanto, puede realizar p-1 pruebas independientes, cada una con un nivel de protección . Por tanto, el nivel de protección conjunta es:

dónde

es decir, la probabilidad de que no se encuentren diferencias significativas al realizar p-1 pruebas independientes, cada una en el nivel de protección , es , bajo la hipótesis de que todas las p medias poblacionales son iguales. En general: la diferencia entre dos medias cualesquiera en un conjunto de n medias es significativa siempre que el rango de todos y cada uno de los subconjuntos que contienen las medias dadas sea significativo según una prueba de rango de niveles, donde p es el número de medias en el subconjunto en cuestión.

Para , el nivel de protección se puede tabular para varios valores de r de la siguiente manera:

Tenga en cuenta que aunque este procedimiento utiliza el rango Studentizado , su tasa de error no se basa en experimentos (como en el caso de Tukey) ni en comparaciones. La prueba de rangos múltiples de Duncan no controla la tasa de error familiar . Consulte la sección de críticas para obtener más detalles.

Procedimiento de comparación múltiple bayesiano de Duncan

Duncan (1965) también proporcionó el primer procedimiento bayesiano de comparación múltiple, para comparaciones por pares entre las medias en un diseño unidireccional. Este procedimiento de comparación múltiple es diferente al comentado anteriormente.

El MCP bayesiano de Duncan analiza las diferencias entre medias de grupos ordenados, donde las estadísticas en cuestión son comparaciones por pares (no se define ningún equivalente para la propiedad de un subconjunto que tiene una propiedad "significativamente diferente").

Duncan modeló las consecuencias de que dos o más medias sean iguales utilizando funciones de pérdida aditivas dentro y entre las comparaciones por pares . Si se supone la misma función de pérdida en las comparaciones por pares, es necesario especificar solo una constante K, y esto indica la gravedad relativa de los errores de tipo I a tipo II en cada comparación por pares.

Un estudio realizado por Juliet Popper Shaffer (1998) ha demostrado que el método propuesto por Duncan, modificado para proporcionar un control débil de FWE y utilizando una estimación empírica de la varianza de las medias poblacionales, tiene buenas propiedades tanto desde el punto bayesiano desde el punto de vista frecuentista, como método de mínimo riesgo, y desde el punto de vista frecuentista, con buena potencia media.

Además, los resultados indican una similitud considerable tanto en el riesgo como en la potencia promedio entre el procedimiento modificado de Duncan y el procedimiento de control de la tasa de descubrimiento falso de Benjamini y Hochberg (1995) , con el mismo control de errores familiar débil.

Crítica

La prueba de Duncan ha sido criticada por ser demasiado liberal por muchos estadísticos, incluidos Henry Scheffé y John W. Tukey . Duncan argumentó que era apropiado un procedimiento más liberal porque en la práctica del mundo real la hipótesis nula global H 0 = "Todas las medias son iguales" es a menudo falsa y, por lo tanto, los estadísticos tradicionales sobreprotegen una hipótesis nula probablemente falsa contra errores de tipo I. Según Duncan, se deberían ajustar los niveles de protección para diferentes comparaciones de p-media según el problema discutido. El ejemplo analizado por Duncan en su artículo de 1955 es el de una comparación de muchas medias (es decir, 100), cuando uno sólo está interesado en comparaciones de dos medias y tres medias, y en comparaciones generales de p-medias (decidir si hay alguna diferencia entre p-medias) no son de especial interés (si p es 15 o más, por ejemplo). La prueba de rangos múltiples de Duncan es muy “liberal” en términos de errores de Tipo I. El siguiente ejemplo ilustrará por qué:

Supongamos que uno está realmente interesado, como sugirió Duncan, sólo en la clasificación correcta de los subconjuntos de tamaño 4 o menos. Supongamos también que se realiza la comparación simple por pares con un nivel de protección . Dado un conjunto general de 100 medias, veamos las hipótesis nulas de la prueba:

Existen hipótesis nulas para la correcta clasificación de cada 2 medias. El nivel de significancia de cada hipótesis es

Existen hipótesis nulas para la correcta clasificación de cada 3 medias. El nivel de significancia de cada hipótesis es

Existen hipótesis nulas para la correcta clasificación de cada 4 medias. El nivel de significancia de cada hipótesis es

Como podemos ver, el test tiene dos problemas principales, en cuanto a los errores tipo I:

  1. Las pruebas de Duncan se basan en el procedimiento de Newman-Keuls , que no protege la tasa de error familiar (aunque sí protege el nivel alfa por comparación).
  2. La prueba de Duncan eleva intencionalmente los niveles alfa ( tasa de error tipo I ) en cada paso del procedimiento de Newman-Keuls (niveles de significancia de ).

Por tanto, se aconseja no utilizar el procedimiento comentado.

Posteriormente, Duncan desarrolló la prueba de Duncan-Waller, que se basa en principios bayesianos. Utiliza el valor obtenido de F para estimar la probabilidad previa de que la hipótesis nula sea cierta.

Diferentes enfoques del problema.

Si todavía se desea abordar el problema de encontrar subconjuntos similares de medias grupales, se encuentran otras soluciones en la literatura.

La prueba de rango de Tukey se usa comúnmente para comparar pares de medias; este procedimiento controla la tasa de error familiar en sentido fuerte.

Otra solución es realizar la prueba t de Student de todos los pares de medias y luego utilizar el procedimiento de control FDR (para controlar la proporción esperada de hipótesis nulas rechazadas incorrectamente ).

Otras posibles soluciones, que no incluyen pruebas de hipótesis, pero que dan como resultado una partición de subconjuntos, incluyen la agrupación en clústeres y la agrupación jerárquica . Estas soluciones difieren del enfoque presentado en este método:

Referencias

Tablas para el uso del rango y rango Studentizado en pruebas de hipótesis

enlaces externos