Una prueba τ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente τ.
Su nombre referencia a Maurice Kendall, quién lo desarrolló en 1938, aunque Gustav Fechner había propuesto una medida similar en el contexto de series de tiempo en 1897.
[1][2] Intuitivamente, la correlación de Kendall entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, la posición relativa de las observaciones dentro de la variable: 1º, 2º, 3º, etc.) entre los dos variables, y bajo cuando las observaciones tienen un rango diferente (o completamente diferente para una correlación de -1) entre las dos variables.
) son únicos (los vínculos se ignoran por simplicidad).
; de lo contrario se dice que son discordantes .
El coeficiente τ de Kendall se define como: Donde
Esta prueba es no paramétrica, ya que no se basa en suposiciones sobre las distribuciones de X o Y o la distribución de ( X, Y ).
La distribución precisa no puede caracterizarse en términos de distribuciones comunes, pero puede calcularse exactamente para muestras pequeñas; para muestras más grandes, es común usar una aproximación a la distribución normal, con media cero y varianza: Un par
Cuando surgen pares vinculados en los datos, el coeficiente puede modificarse de varias maneras para mantenerlo en el rango [−1, 1]: La prueba estadística Tau indica la fuerza de asociación de las tabulaciones cruzadas.
Tau-a no hará ningún ajuste ante empates.
La estadística Tau-b, a diferencia de Tau-a, hace ajustes ante empates.
[5] Los valores de Tau-b varían de −1 (asociación negativa al 100% o inversión perfecta) a +1 (asociación positiva al 100% o acuerdo perfecto).
El coeficiente Kendall Tau-b se define como: dónde Tenga en cuenta que algunos software estadísticos, por ejemplo SPSS, utilizan fórmulas alternativas por eficiencia computacional, con el doble del número 'habitual' de pares concordantes y discordantes.
[6] Tau-c (también llamado Stuart-Kendall Tau-c)[7] es más adecuado que Tau-b para el análisis de datos basados en tablas de contingencia no cuadradas (es decir, rectangulares).
Por ejemplo, una variable podría puntuarse en una escala de 5 puntos (muy buena, buena, promedio, mala, muy mala), mientras que la otra podría basarse en una escala más fina de 10 puntos.
El coeficiente Kendall Tau-c se define como:[8] dónde Cuando dos cantidades son estadísticamente independientes, la distribución de
no es fácilmente caracterizable en términos de distribuciones conocidas.
, se distribuye aproximadamente como un estándar normal cuando las variables son estadísticamente independientes: Por lo tanto, para probar si dos variables son estadísticamente dependientes, uno calcula
y encuentra la probabilidad acumulativa de una distribución normal estándar en
Se deben agregar numerosos ajustes a
, y nuevamente es aproximadamente igual a una distribución normal estándar cuando las cantidades son estadísticamente independientes: dónde Esto a veces se conoce como la prueba de Mann-Kendall.
, implica dos iteraciones anidadas, caracterizadas por el siguiente pseudocódigo: Aunque es rápido de implementar, este algoritmo es
en complejidad y se vuelve muy lento en muestras grandes.
Comience ordenando sus puntos de datos por la primera cantidad,
no está ordenado, y el núcleo del algoritmo consiste en calcular cuántos pasos tomaría una Bubble Sort para ordenar esta
Un algoritmo mejorado de clasificación por mezcla, con complejidad
, se puede aplicar para calcular el número de intercambios,
, eso sería requerido por un Bubble Sort para ordenar
caracteriza el Bubble Sort swap-equivalente para una operación de fusión.
se calcula como se muestra en el siguiente pseudocódigo: Un efecto secundario de los pasos anteriores es que uno termina con una versión ordenada de