stringtranslate.com

Coeficiente de correlación de rangos de Kendall

En estadística , el coeficiente de correlación de rangos de Kendall , comúnmente conocido como coeficiente τ de Kendall (de la letra griega τ , tau), es una estadística utilizada para medir la asociación ordinal entre dos cantidades medidas. Una prueba τ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente τ. Es una medida de correlación de rangos : la similitud de los ordenamientos de los datos cuando se clasifican por cada una de las cantidades. Recibe su nombre en honor a Maurice Kendall , quien lo desarrolló en 1938, [1] aunque Gustav Fechner había propuesto una medida similar en el contexto de series temporales en 1897. [2]

Intuitivamente, la correlación de Kendall entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, etiqueta de posición relativa de las observaciones dentro de la variable: 1.º, 2.º, 3.º, etc.) entre las dos variables, y baja cuando las observaciones tengan un rango desigual (o completamente diferente para una correlación de -1) entre las dos variables.

Tanto el coeficiente de correlación de Kendall como el de Spearman pueden formularse como casos especiales de un coeficiente de correlación más general . Sus nociones de concordancia y discordancia también aparecen en otras áreas de la estadística, como el índice de Rand en el análisis de conglomerados .

Definición

Todos los puntos en el área gris son concordantes y todos los puntos en el área blanca son discordantes con respecto al punto . Con los puntos, hay un total de pares de puntos posibles. En este ejemplo, hay 395 pares de puntos concordantes y 40 pares de puntos discordantes, lo que da como resultado un coeficiente de correlación de rango de Kendall de 0,816.

Sea un conjunto de observaciones de las variables aleatorias conjuntas X e Y , tales que todos los valores de ( ) y ( ) son únicos. (Véase la sección #Contabilización de los empates para conocer las formas de manejar valores no únicos). Cualquier par de observaciones y , donde , se dice que son concordantes si el orden de clasificación de y concuerda: es decir, si se cumplen tanto y como o tanto y ; de lo contrario, se dice que son discordantes .

En ausencia de empates, el coeficiente τ de Kendall se define como:

[3]

donde es el coeficiente binomial para el número de formas de elegir dos elementos entre n elementos .

El número de pares discordantes es igual al número de inversión que permuta la secuencia y en el mismo orden que la secuencia x.

Propiedades

El denominador es el número total de combinaciones de pares, por lo que el coeficiente debe estar en el rango −1 ≤  τ  ≤ 1.

Prueba de hipótesis

El coeficiente de rango de Kendall se utiliza a menudo como estadística de prueba en una prueba de hipótesis estadística para establecer si dos variables pueden considerarse estadísticamente dependientes. Esta prueba no es paramétrica , ya que no se basa en ningún supuesto sobre las distribuciones de X o Y o la distribución de ( X , Y ).

Bajo la hipótesis nula de independencia de X e Y , la distribución de muestreo de τ tiene un valor esperado de cero. La distribución precisa no se puede caracterizar en términos de distribuciones comunes, pero se puede calcular exactamente para muestras pequeñas; para muestras más grandes, es común utilizar una aproximación a la distribución normal , con media cero y varianza . [4]

Teorema. Si las muestras son independientes, entonces la varianza de está dada por .

Prueba
Prueba
Valz y McLeod (1990; [5] 1995 [6] )

WLOG, reordenamos los pares de datos, de modo que . Por suposición de independencia, el orden de es una permutación muestreada de manera uniforme y aleatoria de , el grupo de permutación en .

Para cada permutación, su código de inversión único es tal que cada uno está en el rango . Muestrear una permutación de manera uniforme es equivalente a muestrear un código de inversión de manera uniforme, lo que es equivalente a muestrear cada uno de manera uniforme e independiente.

Entonces tenemos

El primer término es simplemente . El segundo término se puede calcular observando que es una variable aleatoria uniforme en , por lo que y , y luego se usa nuevamente la fórmula de la suma de cuadrados.

Normalidad asintótica  :  En el límite, converge en distribución a la distribución normal estándar.

Prueba

Utilice un resultado de una clase de estadísticas con distribución asintóticamente normal de Hoeffding (1948). [7]

Caso de distribuciones normales estándar

Si son muestras IID de la misma distribución normal conjunta con un coeficiente de correlación de Pearson conocido , entonces la expectativa de correlación de rango de Kendall tiene una fórmula de forma cerrada. [8]

Igualdad de Greiner  :  Si son conjuntamente normales, con correlación , entonces

El nombre se atribuye a Richard Greiner (1909) [9] por PAP Moran . [10]

Prueba
Prueba [11]

Define las siguientes cantidades.

  • es un punto en .

En la notación, vemos que el número de pares concordantes, , es igual al número de los que caen en el subconjunto . Es decir, .

De este modo,

Dado que cada una es una muestra IID de la distribución normal conjunta, el emparejamiento no importa, por lo que cada término de la suma es exactamente el mismo, y así queda calcular la probabilidad. Lo hacemos mediante transformaciones afines repetidas.

Primero, normalizamos restando la media y dividiendo la desviación estándar. Esto no cambia . Esto nos da donde se toma como muestra la distribución normal estándar en .

Por lo tanto, el vector sigue estando distribuido como distribución normal estándar en . Quedan por hacer algunas exponenciaciones matriciales y trigonometrías tediosas y poco esclarecedoras, que se pueden obviar.

Por lo tanto, si y solo si el subconjunto de la derecha es una versión “aplastada” de dos cuadrantes. Como la distribución normal estándar es rotacionalmente simétrica, solo necesitamos calcular el ángulo abarcado por cada cuadrante aplastado.

El primer cuadrante es el sector delimitado por los dos rayos . Se transforma en el sector delimitado por los dos rayos y . Forman respectivamente ángulo con el eje horizontal y vertical, donde

Juntos, los dos cuadrantes transformados abarcan un ángulo de , por lo tanto,

Contabilización de los vínculos

Se dice que un par está empatado si y solo si o ; un par empatado no es ni concordante ni discordante. Cuando surgen pares empatados en los datos, el coeficiente puede modificarse de varias maneras para mantenerlo en el rango [−1, 1]:

Tau-a

El estadístico Tau definido por Kendall en 1938 [1] fue rebautizado retrospectivamente como Tau-a. Representa la fuerza de la asociación positiva o negativa de dos variables cuantitativas u ordinales sin ningún ajuste por vínculos. Se define como:

donde n c , n d y n 0 se definen como en la siguiente sección.

Cuando hay empates , el coeficiente nunca puede ser igual a +1 o -1. Incluso una igualdad perfecta de las dos variables (X=Y) conduce a un Tau-a < 1.

Tau-b

El estadístico Tau-b, a diferencia del Tau-a, realiza ajustes en caso de empates. Este Tau-b fue descrito por primera vez por Kendall en 1945 bajo el nombre de Tau-w [12] como una extensión del estadístico Tau original que apoyaba los empates. Los valores de Tau-b varían de −1 (asociación negativa del 100 % o desacuerdo perfecto) a +1 (asociación positiva del 100 % o acuerdo perfecto). En caso de ausencia de asociación, Tau-b es igual a cero.

El coeficiente Tau-b de Kendall se define como:

dónde

Un algoritmo simple desarrollado en BASIC calcula el coeficiente Tau-b utilizando una fórmula alternativa. [13]

Tenga en cuenta que algunos paquetes estadísticos, por ejemplo SPSS, utilizan fórmulas alternativas para lograr una mayor eficiencia computacional, con el doble del número "habitual" de pares concordantes y discordantes. [14]

Tau-c

Tau-c (también llamada Tau-c de Stuart-Kendall) [15] fue definida por primera vez por Stuart en 1953. [16] A diferencia de Tau-b, Tau-c puede ser igual a +1 o -1 para tablas de contingencia no cuadradas (es decir, rectangulares) , [15] [16] es decir, cuando la escala subyacente de ambas variables tiene un número diferente de valores posibles. Por ejemplo, si la variable X tiene una distribución uniforme continua entre 0 y 100 e Y es una variable dicotómica igual a 1 si X ≥ 50 y 0 si X < 50, el estadístico Tau-c de X e Y es igual a 1 mientras que Tau-b es igual a 0,707. Una Tau-C igual a 1 puede interpretarse como la mejor correlación positiva posible condicional a distribuciones marginales, mientras que una Tau-B igual a 1 puede interpretarse como la correlación monótona positiva perfecta donde la distribución de X condicional a Y tiene varianza cero y la distribución de Y condicional a X tiene varianza cero, de modo que existe una función biyectiva f con f(X)=Y.

El coeficiente Tau-c de Stuart-Kendall se define como: [16]

dónde

Pruebas de significancia

Cuando dos cantidades son estadísticamente dependientes, la distribución de no se puede caracterizar fácilmente en términos de distribuciones conocidas. Sin embargo, para la siguiente estadística, , se distribuye aproximadamente como una normal estándar cuando las variables son estadísticamente independientes:

dónde .

Por lo tanto, para comprobar si dos variables son estadísticamente dependientes, se calcula , y se encuentra la probabilidad acumulada para una distribución normal estándar en . Para una prueba de dos colas, se multiplica ese número por dos para obtener el valor p . Si el valor p está por debajo de un nivel de significancia dado, se rechaza la hipótesis nula (en ese nivel de significancia) de que las cantidades son estadísticamente independientes.

Se deben realizar numerosos ajustes para tener en cuenta los empates. La siguiente estadística, , tiene la misma distribución que la distribución y, nuevamente, es aproximadamente igual a una distribución normal estándar cuando las cantidades son estadísticamente independientes:

dónde

Esto a veces se denomina prueba de Mann-Kendall. [17]

Algoritmos

El cálculo directo del numerador implica dos iteraciones anidadas, como se caracteriza por el siguiente pseudocódigo:

numero := 0 para i := 2..N hacer  para j := 1..(i − 1) hacer numero := numero + signo(x[i] − x[j]) × signo(y[i] − y[j])devolver numero

Aunque es rápido de implementar, este algoritmo es complejo y se vuelve muy lento en muestras grandes. Se puede utilizar un algoritmo más sofisticado [18] basado en el algoritmo Merge Sort para calcular el numerador en el tiempo.

Comience ordenando sus puntos de datos ordenando por la primera cantidad, , y en segundo lugar (entre los empates en ) por la segunda cantidad, . Con este orden inicial, no se ordena, y el núcleo del algoritmo consiste en calcular cuántos pasos necesitaría un Bubble Sort para ordenar este . Se puede aplicar un algoritmo Merge Sort mejorado , con complejidad, para calcular la cantidad de intercambios, , que necesitaría un Bubble Sort para ordenar . Entonces, el numerador para se calcula como:

donde se calcula como y , pero con respecto a los vínculos conjuntos en y .

Un ordenamiento por combinación divide los datos que se van a ordenar en dos mitades aproximadamente iguales y , a continuación, ordena cada mitad de forma recursiva y, a continuación, combina las dos mitades ordenadas en un vector completamente ordenado. La cantidad de intercambios de ordenamiento por burbuja es igual a:

donde y son las versiones ordenadas de y , y caracteriza el equivalente de intercambio de Bubble Sort para una operación de fusión. se calcula como se muestra en el siguiente pseudocódigo:

La función M(L[1..n], R[1..m]) es yo := 1 y := 1 nIntercambios := 0 mientras i ≤ n y j ≤ m hacen  si R[j] < L[i] entonces nIntercambios := nIntercambios + n − i + 1 j := j + 1 demás yo := yo + 1 devolver nSwaps

Un efecto secundario de los pasos anteriores es que se obtiene una versión ordenada de y una versión ordenada de . Con estos, los factores y utilizados para calcular se obtienen fácilmente en un solo paso de tiempo lineal a través de las matrices ordenadas.

Aproximación de la correlación de rangos de Kendall a partir de una secuencia

Los algoritmos eficientes para calcular el coeficiente de correlación de rango de Kendall según el estimador estándar tienen complejidad temporal. Sin embargo, estos algoritmos requieren la disponibilidad de todos los datos para determinar los rangos de observación, lo que plantea un desafío en entornos de datos secuenciales donde las observaciones se revelan de forma incremental. Afortunadamente, existen algoritmos para estimar aproximaciones del coeficiente de correlación de rango de Kendall en entornos secuenciales. [19] [20] Estos algoritmos tienen complejidad temporal y espacial de actualización, y se escalan de manera eficiente con el número de observaciones. En consecuencia, al procesar un lote de observaciones, la complejidad temporal se convierte en , mientras que la complejidad espacial permanece constante .

El primero de estos algoritmos [19] presenta una aproximación al coeficiente de correlación de rangos de Kendall basado en la simplificación de la distribución conjunta de las variables aleatorias. Los datos no estacionarios se tratan mediante un enfoque de ventana móvil. Este algoritmo [19] es simple y puede manejar variables aleatorias discretas junto con variables aleatorias continuas sin modificación.

El segundo algoritmo [20] se basa en estimadores de series de Hermite y utiliza un estimador alternativo para el coeficiente de correlación de rango de Kendall exacto, es decir, para la probabilidad de concordancia menos la probabilidad de discordancia de pares de observaciones bivariadas. Este estimador alternativo también sirve como aproximación al estimador estándar. Este algoritmo [20] solo es aplicable a variables aleatorias continuas, pero ha demostrado una precisión superior y ganancias potenciales de velocidad en comparación con el primer algoritmo descrito, [19] junto con la capacidad de manejar datos no estacionarios sin depender de ventanas deslizantes. Una implementación eficiente del enfoque basado en series de Hermite está contenida en el paquete R package hermiter. [20]

Implementaciones de software

Véase también

Referencias

  1. ^ ab Kendall, MG (1938). "Una nueva medida de correlación de rangos". Biometrika . 30 (1–2): 81–89. doi :10.1093/biomet/30.1-2.81. JSTOR  2332226.
  2. ^ Kruskal, WH (1958). "Medidas ordinales de asociación". Revista de la Asociación Estadounidense de Estadística . 53 (284): 814–861. doi :10.2307/2281954. JSTOR  2281954. MR  0100941.
  3. ^ Nelsen, RB (2001) [1994], "Métrica de tau de Kendall", Enciclopedia de matemáticas , EMS Press
  4. ^ Prokhorov, AV (2001) [1994], "Coeficiente de correlación de rango de Kendall", Enciclopedia de Matemáticas , EMS Press
  5. ^ Valz, Paul D.; McLeod, A. Ian (febrero de 1990). "Una derivación simplificada de la varianza del coeficiente de correlación de rango de Kendall". The American Statistician . 44 (1): 39–40. doi :10.1080/00031305.1990.10475691. ISSN  0003-1305.
  6. ^ Valz, Paul D.; McLeod, A. Ian; Thompson, Mary E. (febrero de 1995). "Función generadora de cumulantes y aproximaciones de probabilidad de cola para la puntuación de Kendall con clasificaciones empatadas". Anales de estadística . 23 (1): 144–160. doi : 10.1214/aos/1176324460 . ISSN  0090-5364.
  7. ^ Hoeffding, Wassily (1992), Kotz, Samuel; Johnson, Norman L. (eds.), "Una clase de estadística con distribución asintóticamente normal", Avances en estadística: fundamentos y teoría básica , Springer Series in Statistics, Nueva York, NY: Springer, págs. 308-334, doi :10.1007/978-1-4612-0919-5_20, ISBN 978-1-4612-0919-5, consultado el 19 de enero de 2024
  8. ^ Kendall, MG (1949). "Correlación de rango y momento producto". Biometrika . 36 (1/2): 177–193. doi :10.2307/2332540. ISSN  0006-3444. JSTOR  2332540. PMID  18132091.
  9. ^ Richard Greiner, (1909), Ueber das Fehlersystem der Kollektiv-maßlehre , Zeitschrift für Mathematik und Physik, Band 57, BG Teubner, Leipzig, páginas 121-158, 225-260, 337-373.
  10. ^ Moran, PAP (1948). "Correlación de rango y correlación de momento producto". Biometrika . 35 (1/2): 203–206. doi :10.2307/2332641. ISSN  0006-3444. JSTOR  2332641. PMID  18867425.
  11. ^ Berger, Daniel (2016). "Una prueba de la igualdad de Greiner". Revista electrónica SSRN . doi :10.2139/ssrn.2830471. ISSN  1556-5068.
  12. ^ Kendall, MG (1945). "El tratamiento de los empates en problemas de clasificación". Biometrika . 33 (3): 239–251. doi :10.2307/2332303. PMID  21006841 . Consultado el 12 de noviembre de 2024 .
  13. ^ Alfred Brophy (1986). "Un algoritmo y programa para el cálculo del coeficiente de correlación de rangos de Kendall" (PDF) . Métodos, instrumentos y computadoras de investigación del comportamiento . 18 : 45–46. doi :10.3758/BF03200993. S2CID  62601552.
  14. ^ IBM (2016). Algoritmos de IBM SPSS Statistics 24. IBM. pág. 168. Consultado el 31 de agosto de 2017 .
  15. ^ ab Berry, KJ; Johnston, JE; Zahran, S.; Mielke, PW (2009). "Medida tau de Stuart del tamaño del efecto para variables ordinales: algunas consideraciones metodológicas". Métodos de investigación del comportamiento . 41 (4): 1144–1148. doi : 10.3758/brm.41.4.1144 . PMID  19897822.
  16. ^ abc Stuart, A. (1953). "La estimación y comparación de las fortalezas de asociación en tablas de contingencia". Biometrika . 40 (1–2): 105–110. doi :10.2307/2333101. JSTOR  2333101.
  17. ^ Valz, Paul D.; McLeod, A. Ian; Thompson, Mary E. (febrero de 1995). "Función generadora de cumulantes y aproximaciones de probabilidad de cola para la puntuación de Kendall con clasificaciones empatadas". Anales de estadística . 23 (1): 144–160. doi : 10.1214/aos/1176324460 . ISSN  0090-5364.
  18. ^ Knight, W. (1966). "Un método informático para calcular la Tau de Kendall con datos no agrupados". Revista de la Asociación Estadounidense de Estadística . 61 (314): 436–439. doi :10.2307/2282833. JSTOR  2282833.
  19. ^ abcd Xiao, W. (2019). "Nuevos algoritmos en línea para correlaciones no paramétricas con aplicación para analizar datos de sensores". Conferencia internacional IEEE sobre Big Data de 2019 (Big Data) . págs. 404–412. doi :10.1109/BigData47090.2019.9006483. ISBN 978-1-7281-0858-2.S2CID211298570  .​
  20. ^ abcde Stephanou, M. y Varughese, M (2023). "Hermiter: paquete R para estimación secuencial no paramétrica". Estadística computacional . arXiv : 2111.14091 . doi :10.1007/s00180-023-01382-0. S2CID  244715035.{{cite journal}}: CS1 maint: multiple names: authors list (link)

Lectura adicional

Enlaces externos