En estadística , el coeficiente de correlación de rango de Kendall , comúnmente conocido como coeficiente τ de Kendall (después de la letra griega τ , tau), es una estadística utilizada para medir la asociación ordinal entre dos cantidades medidas. Una prueba τ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente τ. Es una medida de correlación de rango : la similitud del ordenamiento de los datos cuando se clasifican según cada una de las cantidades. Lleva el nombre de Maurice Kendall , quien lo desarrolló en 1938, [1] aunque Gustav Fechner había propuesto una medida similar en el contexto de series temporales en 1897. [2]
Intuitivamente, la correlación de Kendall entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, etiqueta de posición relativa de las observaciones dentro de la variable: 1.º, 2.º, 3.º, etc.) entre las dos. variables, y bajo cuando las observaciones tienen un rango diferente (o completamente diferente para una correlación de −1) entre las dos variables.
Sea un conjunto de observaciones de las variables aleatorias conjuntas X e Y , tal que todos los valores de ( ) y ( ) sean únicos (los vínculos se desprecian por simplicidad). Cualquier par de observaciones y , donde , se dice que son concordantes si el orden de clasificación de y coincide: es decir, si ambos y se cumplen o ambos y ; de lo contrario se dice que son discordantes .
El coeficiente Kendall τ se define como:
[3]
donde es el coeficiente binomial para el número de formas de elegir dos artículos entre n artículos.
El número de pares discordantes es igual al número de inversión que permuta la secuencia y en el mismo orden que la secuencia x.
Propiedades
El denominador es el número total de combinaciones de pares, por lo que el coeficiente debe estar en el rango −1 ≤ τ ≤ 1.
Si la concordancia entre las dos clasificaciones es perfecta (es decir, las dos clasificaciones son iguales), el coeficiente tiene valor 1.
Si el desacuerdo entre las dos clasificaciones es perfecto (es decir, una clasificación es inversa a la otra), el coeficiente tiene valor −1.
Si X e Y son independientes y no constantes, entonces la esperanza del coeficiente es cero.
Una expresión explícita para el coeficiente de rango de Kendall es .
Prueba de hipotesis
El coeficiente de rango de Kendall se utiliza a menudo como estadístico de prueba en una prueba de hipótesis estadística para establecer si dos variables pueden considerarse estadísticamente dependientes. Esta prueba no es paramétrica , ya que no se basa en ningún supuesto sobre las distribuciones de X o Y o la distribución de ( X , Y ).
Bajo la hipótesis nula de independencia de X e Y , la distribución muestral de τ tiene un valor esperado de cero. La distribución precisa no puede caracterizarse en términos de distribuciones comunes, pero puede calcularse exactamente para muestras pequeñas; para muestras más grandes, es común utilizar una aproximación a la distribución normal , con media cero y varianza . [4]
La siguiente prueba es de Valz y McLeod (1990; [5] 1995 [6] ).
Prueba
Prueba
WLOG, reordenamos los pares de datos, de modo que . Por supuesto de independencia, el orden de es una permutación muestreada uniformemente al azar de , el grupo de permutaciones en .
Para cada permutación, su código de inversión único es tal que cada uno está en el rango . Muestrear una permutación de manera uniforme equivale a muestrear un código de inversión de manera uniforme, lo que equivale a muestrear cada uno de ellos de manera uniforme e independiente.
Entonces nosotros tenemos
El primer término es justo . El segundo término se puede calcular observando que es una variable aleatoria uniforme en , so y , y luego usando la fórmula de suma de cuadrados nuevamente.
Normalidad asintótica : en el límite, converge en distribución a la distribución normal estándar.
Prueba
Utilice un resultado de una clase de estadística con distribución asintóticamente normal Hoeffding (1948). [7]
Caso de distribuciones normales estándar
Si son muestras IID de la misma distribución normal conjunta con un coeficiente de correlación de Pearson conocido , entonces la expectativa de correlación de rango de Kendall tiene una fórmula de forma cerrada. [8]
Igualdad de Greiner : si son conjuntamente normales, con correlación , entonces
El nombre se le atribuye a Richard Greiner (1909) [9] por PAP Moran . [10]
Prueba
Prueba [11]
Defina las siguientes cantidades.
es un punto en .
En la notación, vemos que el número de pares concordantes, , es igual al número de los que caen en el subconjunto . Eso es, .
De este modo,
Dado que cada uno es una muestra IID de la distribución normal conjunta, el emparejamiento no importa, por lo que cada término de la suma es exactamente igual, por lo que
y queda por calcular la probabilidad. Realizamos esto mediante transformaciones afines repetidas.
Primero normalice restando la media y dividiendo la desviación estándar. Esto no cambia . esto nos da
donde se toma una muestra de la distribución normal estándar en .
De este modo,
donde el vector todavía se distribuye como la distribución normal estándar en . Queda por realizar algunas exponenciaciones matriciales y trigonometría poco esclarecedoras y tediosas, que pueden omitirse.
Por lo tanto, si
donde el subconjunto de la derecha es una versión "aplastada" de dos cuadrantes. Dado que la distribución normal estándar es rotacionalmente simétrica, solo necesitamos calcular el ángulo que abarca cada cuadrante aplastado.
El primer cuadrante es el sector delimitado por los dos rayos . Se transforma al sector delimitado por los dos rayos y . Forman respectivamente un ángulo con el eje horizontal y vertical, donde
Juntos, los dos cuadrantes transformados abarcan un ángulo de , por lo que
y por lo tanto
Contabilización de vínculos
Se dice que una pareja está empatada si y sólo si o ; una pareja empatada no es ni concordante ni discordante. Cuando surgen pares empatados en los datos, el coeficiente se puede modificar de varias maneras para mantenerlo en el rango [−1, 1]:
donde n c , n d y n 0 se definen como en la siguiente sección.
tau-b
La estadística Tau-b, a diferencia de Tau-a, realiza ajustes por empates. [12] Los valores de Tau-b varían desde −1 (asociación 100% negativa o inversión perfecta) a +1 (asociación 100% positiva o concordancia perfecta). Un valor de cero indica la ausencia de asociación.
El coeficiente Kendall Tau-b se define como:
dónde
Un algoritmo simple desarrollado en BASIC calcula el coeficiente Tau-b usando una fórmula alternativa. [13]
Tenga en cuenta que algunos paquetes estadísticos, por ejemplo SPSS, utilizan fórmulas alternativas para la eficiencia computacional, con el doble del número "habitual" de pares concordantes y discordantes. [14]
tau-c
Tau-c (también llamado Stuart-Kendall Tau-c) [15] es más adecuado que Tau-b para el análisis de datos basados en tablas de contingencia no cuadradas (es decir, rectangulares) . [15] [16] Entonces use Tau-b si la escala subyacente de ambas variables tiene el mismo número de valores posibles (antes de la clasificación) y Tau-c si difieren. Por ejemplo, una variable podría calificarse en una escala de cinco puntos (muy buena, buena, regular, mala, muy mala), mientras que la otra podría basarse en una escala más fina de 10 puntos.
El coeficiente Kendall Tau-c se define como: [16]
dónde
Pruebas de significancia
Cuando dos cantidades son estadísticamente dependientes, la distribución de no es fácilmente caracterizable en términos de distribuciones conocidas. Sin embargo, para la siguiente estadística, , se distribuye aproximadamente como normal estándar cuando las variables son estadísticamente independientes:
dónde .
Por lo tanto, para probar si dos variables son estadísticamente dependientes, se calcula y se encuentra la probabilidad acumulada para una distribución normal estándar en . Para una prueba de dos colas, multiplique ese número por dos para obtener el valor p . Si el valor p está por debajo de un nivel de significancia determinado, se rechaza la hipótesis nula (en ese nivel de significancia) de que las cantidades son estadísticamente independientes.
Se deben agregar numerosos ajustes al contabilizar los empates. La siguiente estadística, tiene la misma distribución que la distribución y nuevamente es aproximadamente igual a una distribución normal estándar cuando las cantidades son estadísticamente independientes:
dónde
A esto a veces se le conoce como prueba de Mann-Kendall. [6]
Algoritmos
El cálculo directo del numerador implica dos iteraciones anidadas, como se caracteriza por el siguiente pseudocódigo:
número := 0 para i := 2..N hacer para j := 1..(i − 1) hacer número := número + signo(x[i] − x[j]) × signo(y[i] − y[j])número de retorno
Aunque es rápido de implementar, este algoritmo es complejo y se vuelve muy lento en muestras grandes. Se puede utilizar un algoritmo más sofisticado [17] basado en el algoritmo Merge Sort para calcular el numerador en el tiempo.
Comience ordenando sus puntos de datos por la primera cantidad, y en segundo lugar (entre los vínculos en ) por la segunda cantidad . Con este orden inicial, no se ordena, y el núcleo del algoritmo consiste en calcular cuántos pasos tomaría un Bubble Sort para ordenar este orden inicial . Se puede aplicar un algoritmo Merge Sort mejorado , con complejidad, para calcular el número de intercambios que necesitaría un Bubble Sort para ordenar . Entonces el numerador de se calcula como:
donde se calcula como y , pero con respecto a los vínculos conjuntos en y .
Un Merge Sort divide los datos que se van a ordenar en dos mitades aproximadamente iguales y luego ordena cada mitad de forma recursiva y luego fusiona las dos mitades ordenadas en un vector completamente ordenado. El número de intercambios de Bubble Sort es igual a:
donde y son las versiones ordenadas de y y caracteriza el equivalente de intercambio de clasificación de burbujas para una operación de fusión. se calcula como se muestra en el siguiente pseudocódigo:
la función M(L[1..n], R[1..m]) es yo := 1 j := 1 nIntercambios := 0 mientras que i ≤ n y j ≤ m lo hacemos si R[j] < L[i] entonces nIntercambios := nIntercambios + n − i + 1 j := j + 1 demás yo := yo + 1 devolver nSwaps
Un efecto secundario de los pasos anteriores es que terminará con una versión ordenada y una versión ordenada de . Con estos, los factores utilizados para calcular se obtienen fácilmente en un solo paso de tiempo lineal a través de las matrices ordenadas.
Implementaciones de software
R implementa la prueba para cor.test(x, y, método = "kendall") en su paquete "estadísticas" (también funcionará, pero este último no devuelve el valor p). Las tres versiones del coeficiente están disponibles en el paquete "DescTools" junto con los intervalos de confianza: para , para , para .cor(x, y, method = "kendall")KendallTauA(x,y,conf.level=0.95)KendallTauB(x,y,conf.level=0.95)StuartTauC(x,y,conf.level=0.95)
Para Python , la biblioteca SciPy implementa el cálculo en scipy.stats.kendalltau
^ Valz, Paul D.; McLeod, A. Ian (febrero de 1990). "Una derivación simplificada de la varianza del coeficiente de correlación de rangos de Kendall". El estadístico estadounidense . 44 (1): 39–40. doi :10.1080/00031305.1990.10475691. ISSN 0003-1305.
^ ab Valz, Paul D.; McLeod, A. Ian; Thompson, Mary E. (febrero de 1995). "Aproximaciones de función generadora de cumulantes y probabilidad de cola para la puntuación de Kendall con clasificaciones empatadas". Los anales de la estadística . 23 (1): 144-160. doi : 10.1214/aos/1176324460 . ISSN 0090-5364.
^ Hoeffding, Wassily (1992), Kotz, Samuel; Johnson, Norman L. (eds.), "Una clase de estadística con distribución asintóticamente normal", Avances en estadística: fundamentos y teoría básica , Springer Series in Statistics, Nueva York, NY: Springer, págs. 308–334, doi : 10.1007/978-1-4612-0919-5_20, ISBN978-1-4612-0919-5, recuperado el 19 de enero de 2024
^ Kendall, MG (1949). "Rango y correlación producto-momento". Biometrika . 36 (1/2): 177–193. doi :10.2307/2332540. ISSN 0006-3444.
^ Richard Greiner, (1909), Ueber das Fehlersystem der Kollektiv-maßlehre , Zeitschrift für Mathematik und Physik, Band 57, BG Teubner, Leipzig, páginas 121-158, 225-260, 337-373.
^ Morán, PAP (1948). "Correlación de rango y correlación producto-momento". Biometrika . 35 (1/2): 203–206. doi :10.2307/2332641. ISSN 0006-3444.
^ Berger, Daniel (2016). "Una prueba de la igualdad de Greiner". Revista Electrónica SSRN . doi :10.2139/ssrn.2830471. ISSN 1556-5068.
^ Agresti, A. (2010). Análisis de datos categóricos ordinales (Segunda ed.). Nueva York: John Wiley & Sons. ISBN978-0-470-08289-8.
^ Alfred Brophy (1986). "Un algoritmo y programa para el cálculo del coeficiente de correlación de rango de Kendall" (PDF) . Métodos, instrumentos y computadoras de investigación del comportamiento . 18 : 45–46. doi :10.3758/BF03200993. S2CID 62601552.
^ IBM (2016). IBM SPSS Estadísticas 24 Algoritmos. IBM. pag. 168 . Consultado el 31 de agosto de 2017 .
^ ab Berry, KJ; Johnston, JE; Zahrán, S.; Mielke, PW (2009). "Medida tau de Stuart del tamaño del efecto para variables ordinales: algunas consideraciones metodológicas". Métodos de investigación del comportamiento . 41 (4): 1144-1148. doi : 10.3758/brm.41.4.1144 . PMID 19897822.
^ ab Stuart, A. (1953). "La estimación y comparación de fortalezas de asociación en tablas de contingencia". Biometrika . 40 (1–2): 105–110. doi :10.2307/2333101. JSTOR 2333101.
Abdi, H. (2007). "Correlación de rango de Kendall" (PDF) . En Salkind, Nueva Jersey (ed.). Enciclopedia de Medición y Estadística . Thousand Oaks (CA): Salvia.
Daniel, Wayne W. (1990). "Tau de Kendall". Estadística no paramétrica aplicada (2ª ed.). Boston: PWS-Kent. págs. 365–377. ISBN 978-0-534-91976-4.
Kendall, Mauricio; Gibbons, Jean Dickinson (1990) [Publicado por primera vez en 1948]. Métodos de correlación de rangos . Serie de libros de Charles Griffin (5ª ed.). Oxford: Prensa de la Universidad de Oxford. ISBN 978-0195208375.
Bonett, Douglas G.; Wright, Thomas A. (2000). "Requisitos de tamaño de muestra para estimar las correlaciones de Pearson, Kendall y Spearman". Psicometrika . 65 (1): 23–28. doi :10.1007/BF02294183. S2CID 120558581.
enlaces externos
Cálculo de rango empatado
Software para calcular la tau de Kendall en conjuntos de datos muy grandes
Software en línea: calcula la correlación de rango tau de Kendall