En estadística , el coeficiente de correlación de rangos de Kendall , comúnmente conocido como coeficiente τ de Kendall (de la letra griega τ , tau), es una estadística utilizada para medir la asociación ordinal entre dos cantidades medidas. Una prueba τ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente τ. Es una medida de correlación de rangos : la similitud de los ordenamientos de los datos cuando se clasifican por cada una de las cantidades. Recibe su nombre en honor a Maurice Kendall , quien lo desarrolló en 1938, [1] aunque Gustav Fechner había propuesto una medida similar en el contexto de series temporales en 1897. [2]
Intuitivamente, la correlación de Kendall entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, etiqueta de posición relativa de las observaciones dentro de la variable: 1.º, 2.º, 3.º, etc.) entre las dos variables, y baja cuando las observaciones tengan un rango desigual (o completamente diferente para una correlación de -1) entre las dos variables.
Sea un conjunto de observaciones de las variables aleatorias conjuntas X e Y , tales que todos los valores de ( ) y ( ) son únicos. (Véase la sección #Contabilización de los empates para conocer las formas de manejar valores no únicos). Cualquier par de observaciones y , donde , se dice que son concordantes si el orden de clasificación de y concuerda: es decir, si se cumplen tanto y como o tanto y ; de lo contrario, se dice que son discordantes .
El coeficiente τ de Kendall se define como:
[3]
donde es el coeficiente binomial para el número de formas de elegir dos elementos entre n elementos.
El número de pares discordantes es igual al número de inversión que permuta la secuencia y en el mismo orden que la secuencia x.
Propiedades
El denominador es el número total de combinaciones de pares, por lo que el coeficiente debe estar en el rango −1 ≤ τ ≤ 1.
Si el acuerdo entre las dos clasificaciones es perfecto (es decir, las dos clasificaciones son iguales) el coeficiente tiene valor 1.
Si el desacuerdo entre las dos clasificaciones es perfecto (es decir, una clasificación es inversa a la otra) el coeficiente tiene valor −1.
Una expresión explícita para el coeficiente de rango de Kendall es .
Prueba de hipótesis
El coeficiente de rango de Kendall se utiliza a menudo como estadística de prueba en una prueba de hipótesis estadística para establecer si dos variables pueden considerarse estadísticamente dependientes. Esta prueba no es paramétrica , ya que no se basa en ningún supuesto sobre las distribuciones de X o Y o la distribución de ( X , Y ).
Bajo la hipótesis nula de independencia de X e Y , la distribución de muestreo de τ tiene un valor esperado de cero. La distribución precisa no se puede caracterizar en términos de distribuciones comunes, pero se puede calcular exactamente para muestras pequeñas; para muestras más grandes, es común utilizar una aproximación a la distribución normal , con media cero y varianza . [4]
Teorema. Si las muestras son independientes, entonces la varianza de está dada por .
Prueba
Prueba Valz y McLeod (1990; [5] 1995 [6] )
WLOG, reordenamos los pares de datos, de modo que . Por suposición de independencia, el orden de es una permutación muestreada de manera uniforme y aleatoria de , el grupo de permutación en .
Para cada permutación, su código de inversión único es tal que cada uno está en el rango . Muestrear una permutación de manera uniforme es equivalente a muestrear un código de inversión de manera uniforme, lo que es equivalente a muestrear cada uno de manera uniforme e independiente.
Entonces tenemos
El primer término es simplemente . El segundo término se puede calcular observando que es una variable aleatoria uniforme en , por lo que y , y luego se usa nuevamente la fórmula de la suma de cuadrados.
Normalidad asintótica : En el límite, converge en distribución a la distribución normal estándar.
Prueba
Utilice un resultado de una clase de estadísticas con distribución asintóticamente normal de Hoeffding (1948). [7]
Caso de distribuciones normales estándar
Si son muestras IID de la misma distribución normal conjunta con un coeficiente de correlación de Pearson conocido , entonces la expectativa de correlación de rango de Kendall tiene una fórmula de forma cerrada. [8]
Igualdad de Greiner : Si son conjuntamente normales, con correlación , entonces
El nombre se atribuye a Richard Greiner (1909) [9] por PAP Moran . [10]
Prueba
Prueba [11]
Define las siguientes cantidades.
es un punto en .
En la notación, vemos que el número de pares concordantes, , es igual al número de los que caen en el subconjunto . Es decir, .
De este modo,
Dado que cada una es una muestra IID de la distribución normal conjunta, el emparejamiento no importa, por lo que cada término de la suma es exactamente el mismo, y así queda calcular la probabilidad. Lo hacemos mediante transformaciones afines repetidas.
Primero, normalizamos restando la media y dividiendo la desviación estándar. Esto no cambia . Esto nos da donde se toma como muestra la distribución normal estándar en .
Por lo tanto, el vector sigue estando distribuido como distribución normal estándar en . Quedan por hacer algunas exponenciaciones matriciales y trigonometrías tediosas y poco esclarecedoras, que se pueden obviar.
Por lo tanto, si y solo si el subconjunto de la derecha es una versión “aplastada” de dos cuadrantes. Como la distribución normal estándar es rotacionalmente simétrica, solo necesitamos calcular el ángulo abarcado por cada cuadrante aplastado.
El primer cuadrante es el sector delimitado por los dos rayos . Se transforma en el sector delimitado por los dos rayos y . Forman respectivamente ángulo con el eje horizontal y vertical, donde
Juntos, los dos cuadrantes transformados abarcan un ángulo de , por lo tanto,
Contabilización de los vínculos
Se dice que un par está empatado si y solo si o ; un par empatado no es ni concordante ni discordante. Cuando surgen pares empatados en los datos, el coeficiente puede modificarse de varias maneras para mantenerlo en el rango [−1, 1]:
donde n c , n d y n 0 se definen como en la siguiente sección.
Tau-b
A diferencia de Tau-a, la estadística Tau-b realiza ajustes en caso de empate. [12] Los valores de Tau-b varían de −1 (asociación negativa del 100 % o inversión perfecta) a +1 (asociación positiva del 100 % o concordancia perfecta). Un valor de cero indica la ausencia de asociación.
El coeficiente Tau-b de Kendall se define como:
dónde
Un algoritmo simple desarrollado en BASIC calcula el coeficiente Tau-b utilizando una fórmula alternativa. [13]
Tenga en cuenta que algunos paquetes estadísticos, por ejemplo SPSS, utilizan fórmulas alternativas para lograr una mayor eficiencia computacional, con el doble del número "habitual" de pares concordantes y discordantes. [14]
Tau-c
Tau-c (también llamada Stuart-Kendall Tau-c) [15] es más adecuada que Tau-b para el análisis de datos basados en tablas de contingencia no cuadradas (es decir, rectangulares) . [15] [16] Por lo tanto, utilice Tau-b si la escala subyacente de ambas variables tiene el mismo número de valores posibles (antes de la clasificación) y Tau-c si difieren. Por ejemplo, una variable podría calificarse en una escala de 5 puntos (muy buena, buena, promedio, mala, muy mala), mientras que la otra podría basarse en una escala más fina de 10 puntos.
El coeficiente Tau-c de Kendall se define como: [16]
dónde
Pruebas de significancia
Cuando dos cantidades son estadísticamente dependientes, la distribución de no se puede caracterizar fácilmente en términos de distribuciones conocidas. Sin embargo, para la siguiente estadística, , se distribuye aproximadamente como una normal estándar cuando las variables son estadísticamente independientes:
dónde .
Por lo tanto, para comprobar si dos variables son estadísticamente dependientes, se calcula , y se encuentra la probabilidad acumulada para una distribución normal estándar en . Para una prueba de dos colas, se multiplica ese número por dos para obtener el valor p . Si el valor p está por debajo de un nivel de significancia dado, se rechaza la hipótesis nula (en ese nivel de significancia) de que las cantidades son estadísticamente independientes.
Se deben realizar numerosos ajustes para tener en cuenta los empates. La siguiente estadística, , tiene la misma distribución que la distribución y, nuevamente, es aproximadamente igual a una distribución normal estándar cuando las cantidades son estadísticamente independientes:
dónde
Esto a veces se denomina prueba de Mann-Kendall. [17]
Algoritmos
El cálculo directo del numerador implica dos iteraciones anidadas, como se caracteriza por el siguiente pseudocódigo:
numero := 0 para i := 2..N hacer para j := 1..(i − 1) hacer numero := numero + signo(x[i] − x[j]) × signo(y[i] − y[j])devolver numero
Aunque es rápido de implementar, este algoritmo es complejo y se vuelve muy lento en muestras grandes. Se puede utilizar un algoritmo más sofisticado [18] basado en el algoritmo Merge Sort para calcular el numerador en el tiempo.
Comience ordenando sus puntos de datos ordenando por la primera cantidad, , y en segundo lugar (entre los empates en ) por la segunda cantidad, . Con este orden inicial, no se ordena, y el núcleo del algoritmo consiste en calcular cuántos pasos necesitaría un Bubble Sort para ordenar este . Se puede aplicar un algoritmo Merge Sort mejorado , con complejidad, para calcular la cantidad de intercambios, , que necesitaría un Bubble Sort para ordenar . Entonces, el numerador para se calcula como:
donde se calcula como y , pero con respecto a los vínculos conjuntos en y .
Un ordenamiento por combinación divide los datos que se van a ordenar en dos mitades aproximadamente iguales y , a continuación, ordena cada mitad de forma recursiva y, a continuación, combina las dos mitades ordenadas en un vector completamente ordenado. La cantidad de intercambios de ordenamiento por burbuja es igual a:
donde y son las versiones ordenadas de y , y caracteriza el equivalente de intercambio de Bubble Sort para una operación de fusión. se calcula como se muestra en el siguiente pseudocódigo:
La función M(L[1..n], R[1..m]) es yo := 1 y := 1 nIntercambios := 0 mientras i ≤ n y j ≤ m hacen si R[j] < L[i] entonces nIntercambios := nIntercambios + n − i + 1 j := j + 1 demás yo := yo + 1 devolver nSwaps
Un efecto secundario de los pasos anteriores es que se obtiene una versión ordenada de y una versión ordenada de . Con estos, los factores y utilizados para calcular se obtienen fácilmente en un solo paso de tiempo lineal a través de las matrices ordenadas.
Aproximación de la correlación de rangos de Kendall a partir de una secuencia
Los algoritmos eficientes para calcular el coeficiente de correlación de rango de Kendall según el estimador estándar tienen complejidad temporal. Sin embargo, estos algoritmos requieren la disponibilidad de todos los datos para determinar los rangos de observación, lo que plantea un desafío en entornos de datos secuenciales donde las observaciones se revelan de forma incremental. Afortunadamente, existen algoritmos para estimar el coeficiente de correlación de rango de Kendall en entornos secuenciales. [19] [20] Estos algoritmos tienen complejidad temporal y espacial de actualización, y se escalan de manera eficiente con el número de observaciones. En consecuencia, al procesar un lote de observaciones, la complejidad temporal se convierte en , mientras que la complejidad espacial permanece constante .
El primero de estos algoritmos [19] presenta una aproximación al coeficiente de correlación de rangos de Kendall basado en la simplificación de la distribución conjunta de las variables aleatorias. Los datos no estacionarios se tratan mediante un enfoque de ventana móvil. Este algoritmo [19] es simple y puede manejar variables aleatorias discretas junto con variables aleatorias continuas sin modificación.
El segundo algoritmo [20] se basa en estimadores de series de Hermite y utiliza un estimador alternativo para el coeficiente de correlación de rango de Kendall exacto, es decir, para la probabilidad de concordancia menos la probabilidad de discordancia de pares de observaciones bivariadas. Este estimador alternativo también sirve como aproximación al estimador estándar. Este algoritmo [20] solo es aplicable a variables aleatorias continuas, pero ha demostrado una precisión superior y ganancias potenciales de velocidad en comparación con el primer algoritmo descrito, [19] junto con la capacidad de manejar datos no estacionarios sin depender de ventanas deslizantes. Una implementación eficiente del enfoque basado en series de Hermite está contenida en el paquete R package hermiter. [20]
Implementaciones de software
R implementa la prueba para cor.test(x, y, method = "kendall") en su paquete "stats" (también funcionará, pero este último no devuelve el valor p). Las tres versiones del coeficiente están disponibles en el paquete "DescTools" junto con los intervalos de confianza: for , for , for . Se proporcionan estimaciones rápidas por lotes del coeficiente de correlación de rango de Kendall junto con estimaciones secuenciales en el paquete hermiter. [20]cor(x, y, method = "kendall")KendallTauA(x,y,conf.level=0.95)KendallTauB(x,y,conf.level=0.95)StuartTauC(x,y,conf.level=0.95)
Para Python , la biblioteca SciPy implementa el cálculo de en scipy.stats.kendalltau
^ Valz, Paul D.; McLeod, A. Ian (febrero de 1990). "Una derivación simplificada de la varianza del coeficiente de correlación de rango de Kendall". The American Statistician . 44 (1): 39–40. doi :10.1080/00031305.1990.10475691. ISSN 0003-1305.
^ Valz, Paul D.; McLeod, A. Ian; Thompson, Mary E. (febrero de 1995). "Función generadora de cumulantes y aproximaciones de probabilidad de cola para la puntuación de Kendall con clasificaciones empatadas". Anales de estadística . 23 (1): 144–160. doi : 10.1214/aos/1176324460 . ISSN 0090-5364.
^ Hoeffding, Wassily (1992), Kotz, Samuel; Johnson, Norman L. (eds.), "Una clase de estadística con distribución asintóticamente normal", Avances en estadística: fundamentos y teoría básica , Springer Series in Statistics, Nueva York, NY: Springer, págs. 308-334, doi :10.1007/978-1-4612-0919-5_20, ISBN978-1-4612-0919-5, consultado el 19 de enero de 2024
^ Kendall, MG (1949). "Correlación de rango y momento producto". Biometrika . 36 (1/2): 177–193. doi :10.2307/2332540. ISSN 0006-3444. JSTOR 2332540. PMID 18132091.
^ Richard Greiner, (1909), Ueber das Fehlersystem der Kollektiv-maßlehre , Zeitschrift für Mathematik und Physik, Band 57, BG Teubner, Leipzig, páginas 121-158, 225-260, 337-373.
^ Moran, PAP (1948). "Correlación de rango y correlación de momento producto". Biometrika . 35 (1/2): 203–206. doi :10.2307/2332641. ISSN 0006-3444. JSTOR 2332641. PMID 18867425.
^ Berger, Daniel (2016). "Una prueba de la igualdad de Greiner". Revista electrónica SSRN . doi :10.2139/ssrn.2830471. ISSN 1556-5068.
^ Agresti, A. (2010). Análisis de datos categóricos ordinales (segunda edición). Nueva York: John Wiley & Sons. ISBN978-0-470-08289-8.
^ Alfred Brophy (1986). "Un algoritmo y programa para el cálculo del coeficiente de correlación de rangos de Kendall" (PDF) . Métodos, instrumentos y computadoras de investigación del comportamiento . 18 : 45–46. doi :10.3758/BF03200993. S2CID 62601552.
^ IBM (2016). Algoritmos de IBM SPSS Statistics 24. IBM. pág. 168. Consultado el 31 de agosto de 2017 .
^ ab Berry, KJ; Johnston, JE; Zahran, S.; Mielke, PW (2009). "Medida tau de Stuart del tamaño del efecto para variables ordinales: algunas consideraciones metodológicas". Métodos de investigación del comportamiento . 41 (4): 1144–1148. doi : 10.3758/brm.41.4.1144 . PMID 19897822.
^ ab Stuart, A. (1953). "La estimación y comparación de las fortalezas de asociación en tablas de contingencia". Biometrika . 40 (1–2): 105–110. doi :10.2307/2333101. JSTOR 2333101.
^ Valz, Paul D.; McLeod, A. Ian; Thompson, Mary E. (febrero de 1995). "Función generadora de cumulantes y aproximaciones de probabilidad de cola para la puntuación de Kendall con clasificaciones empatadas". Anales de estadística . 23 (1): 144–160. doi : 10.1214/aos/1176324460 . ISSN 0090-5364.
^ abcd Xiao, W. (2019). "Nuevos algoritmos en línea para correlaciones no paramétricas con aplicación para analizar datos de sensores". Conferencia internacional IEEE sobre Big Data de 2019 (Big Data) . págs. 404–412. doi :10.1109/BigData47090.2019.9006483. ISBN978-1-7281-0858-2.S2CID211298570 .
^ abcde Stephanou, M. y Varughese, M (2023). "Hermiter: paquete R para estimación secuencial no paramétrica". Estadística computacional . arXiv : 2111.14091 . doi :10.1007/s00180-023-01382-0. S2CID 244715035.{{cite journal}}: CS1 maint: multiple names: authors list (link)
Lectura adicional
Abdi, H. (2007). "Correlación de rangos de Kendall" (PDF) . En Salkind, NJ (ed.). Enciclopedia de medición y estadística . Thousand Oaks (CA): Sage.
Daniel, Wayne W. (1990). "Tau de Kendall". Applied Nonparametric Statistics (2.ª ed.). Boston: PWS-Kent. págs. 365–377. ISBN 978-0-534-91976-4.
Kendall, Maurice; Gibbons, Jean Dickinson (1990) [Publicado por primera vez en 1948]. Métodos de correlación de rangos . Serie de libros de Charles Griffin (quinta edición). Oxford: Oxford University Press. ISBN 978-0195208375.
Bonett, Douglas G.; Wright, Thomas A. (2000). "Requisitos de tamaño de muestra para estimar las correlaciones de Pearson, Kendall y Spearman". Psychometrika . 65 (1): 23–28. doi :10.1007/BF02294183. S2CID 120558581.
Enlaces externos
Cálculo de rango empatado
Software para calcular la tau de Kendall en conjuntos de datos muy grandes
Software en línea: calcula la correlación del rango tau de Kendall