stringtranslate.com

Coeficiente de correlación de rango de Kendall

En estadística , el coeficiente de correlación de rango de Kendall , comúnmente conocido como coeficiente τ de Kendall (después de la letra griega τ , tau), es una estadística utilizada para medir la asociación ordinal entre dos cantidades medidas. Una prueba τ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente τ. Es una medida de correlación de rango : la similitud del ordenamiento de los datos cuando se clasifican según cada una de las cantidades. Lleva el nombre de Maurice Kendall , quien lo desarrolló en 1938, [1] aunque Gustav Fechner había propuesto una medida similar en el contexto de series temporales en 1897. [2]

Intuitivamente, la correlación de Kendall entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, etiqueta de posición relativa de las observaciones dentro de la variable: 1.º, 2.º, 3.º, etc.) entre las dos. variables, y bajo cuando las observaciones tienen un rango diferente (o completamente diferente para una correlación de −1) entre las dos variables.

Tanto el de Kendall como el de Spearman pueden formularse como casos especiales de un coeficiente de correlación más general . Sus nociones de concordancia y discordancia también aparecen en otras áreas de la estadística, como el índice de Rand en el análisis de conglomerados .

Definición

Todos los puntos del área gris son concordantes y todos los puntos del área blanca son discordantes con respecto al punto . Con los puntos, hay un total de pares de puntos posibles. En este ejemplo hay 395 pares de puntos concordantes y 40 pares de puntos discordantes, lo que lleva a un coeficiente de correlación de rango de Kendall de 0,816.

Sea un conjunto de observaciones de las variables aleatorias conjuntas X e Y , tal que todos los valores de ( ) y ( ) sean únicos (los vínculos se desprecian por simplicidad). Se dice que cualquier par de observaciones y , donde , son concordantes si el orden de clasificación de y coincide: es decir, si ambos y se cumplen o ambos y ; de lo contrario se dice que son discordantes .

El coeficiente Kendall τ se define como:

[3]

donde es el coeficiente binomial para el número de formas de elegir dos artículos entre n artículos.

El número de pares discordantes es igual al número de inversión que permuta la secuencia y en el mismo orden que la secuencia x.

Propiedades

El denominador es el número total de combinaciones de pares, por lo que el coeficiente debe estar en el rango −1 ≤  τ  ≤ 1.

Prueba de hipotesis

El coeficiente de rango de Kendall se utiliza a menudo como estadístico de prueba en una prueba de hipótesis estadística para establecer si dos variables pueden considerarse estadísticamente dependientes. Esta prueba no es paramétrica , ya que no se basa en ningún supuesto sobre las distribuciones de X o Y o la distribución de ( X , Y ).

Bajo la hipótesis nula de independencia de X e Y , la distribución muestral de τ tiene un valor esperado de cero. La distribución precisa no puede caracterizarse en términos de distribuciones comunes, pero puede calcularse exactamente para muestras pequeñas; para muestras más grandes, es común utilizar una aproximación a la distribución normal , con media cero y varianza . [4]

La siguiente prueba es de Valz y McLeod (1990; [5] 1995 [6] ).

Prueba
Prueba

WLOG, reordenamos los pares de datos, de modo que . Por supuesto de independencia, el orden de es una permutación muestreada uniformemente al azar de , el grupo de permutaciones en .

Para cada permutación, su código de inversión único es tal que cada uno está en el rango . Muestrear una permutación de manera uniforme equivale a muestrear un código de inversión de manera uniforme, lo que equivale a muestrear cada uno de ellos de manera uniforme e independiente.

Entonces nosotros tenemos

El primer término es justo . El segundo término se puede calcular observando que es una variable aleatoria uniforme en , so y , y luego usando la fórmula de suma de cuadrados nuevamente.

Normalidad asintótica  :  en el límite, converge en distribución a la distribución normal estándar.

Prueba

Utilice un resultado de una clase de estadística con distribución asintóticamente normal Hoeffding (1948). [7]

Caso de distribuciones normales estándar

Si son muestras IID de la misma distribución normal conjunta con un coeficiente de correlación de Pearson conocido , entonces la expectativa de correlación de rango de Kendall tiene una fórmula de forma cerrada. [8]

Igualdad de Greiner  :  si son conjuntamente normales, con correlación , entonces

El nombre se le atribuye a Richard Greiner (1909) [9] por PAP Moran . [10]

Prueba
Prueba [11]

Defina las siguientes cantidades.

  • es un punto en .

En la notación, vemos que el número de pares concordantes, , es igual al número de los que caen en el subconjunto . Eso es, .

De este modo,

Dado que cada uno es una muestra IID de la distribución normal conjunta, el emparejamiento no importa, por lo que cada término de la suma es exactamente igual, por lo que

y queda por calcular la probabilidad. Realizamos esto mediante transformaciones afines repetidas.

Primero normalice restando la media y dividiendo la desviación estándar. Esto no cambia . esto nos da

donde se toma una muestra de la distribución normal estándar en .

De este modo,

donde el vector todavía se distribuye como la distribución normal estándar en . Queda por realizar algunas exponenciaciones matriciales y trigonometría poco esclarecedoras y tediosas, que pueden omitirse.

Por lo tanto, si

donde el subconjunto de la derecha es una versión "aplastada" de dos cuadrantes. Dado que la distribución normal estándar es rotacionalmente simétrica, solo necesitamos calcular el ángulo que abarca cada cuadrante aplastado.

El primer cuadrante es el sector delimitado por los dos rayos . Se transforma al sector delimitado por los dos rayos y . Forman respectivamente un ángulo con el eje horizontal y vertical, donde

Juntos, los dos cuadrantes transformados abarcan un ángulo de , por lo que

y por lo tanto

Contabilización de vínculos

Se dice que una pareja está empatada si y sólo si o ; una pareja empatada no es ni concordante ni discordante. Cuando surgen pares empatados en los datos, el coeficiente se puede modificar de varias maneras para mantenerlo en el rango [−1, 1]:

tau-a

El estadístico Tau-a pone a prueba la fuerza de asociación de las tabulaciones cruzadas . Ambas variables tienen que ser ordinales . Tau-a no hará ningún ajuste por empates. Se define como:

donde n c , n d y n 0 se definen como en la siguiente sección.

tau-b

La estadística Tau-b, a diferencia de Tau-a, realiza ajustes por empates. [12] Los valores de Tau-b varían desde −1 (asociación 100% negativa o inversión perfecta) a +1 (asociación 100% positiva o concordancia perfecta). Un valor de cero indica la ausencia de asociación.

El coeficiente Kendall Tau-b se define como:

dónde

Un algoritmo simple desarrollado en BASIC calcula el coeficiente Tau-b usando una fórmula alternativa. [13]

Tenga en cuenta que algunos paquetes estadísticos, por ejemplo SPSS, utilizan fórmulas alternativas para la eficiencia computacional, con el doble del número "habitual" de pares concordantes y discordantes. [14]

tau-c

Tau-c (también llamado Stuart-Kendall Tau-c) [15] es más adecuado que Tau-b para el análisis de datos basados ​​en tablas de contingencia no cuadradas (es decir, rectangulares) . [15] [16] Entonces use Tau-b si la escala subyacente de ambas variables tiene el mismo número de valores posibles (antes de la clasificación) y Tau-c si difieren. Por ejemplo, una variable podría calificarse en una escala de cinco puntos (muy buena, buena, regular, mala, muy mala), mientras que la otra podría basarse en una escala más fina de 10 puntos.

El coeficiente Kendall Tau-c se define como: [16]

dónde

Pruebas de significancia

Cuando dos cantidades son estadísticamente dependientes, la distribución de no es fácilmente caracterizable en términos de distribuciones conocidas. Sin embargo, para la siguiente estadística, , se distribuye aproximadamente como normal estándar cuando las variables son estadísticamente independientes:

dónde .

Por lo tanto, para probar si dos variables son estadísticamente dependientes, se calcula y se encuentra la probabilidad acumulada para una distribución normal estándar en . Para una prueba de dos colas, multiplique ese número por dos para obtener el valor p . Si el valor p está por debajo de un nivel de significancia determinado, se rechaza la hipótesis nula (en ese nivel de significancia) de que las cantidades son estadísticamente independientes.

Se deben agregar numerosos ajustes al contabilizar los empates. La siguiente estadística, tiene la misma distribución que la distribución y nuevamente es aproximadamente igual a una distribución normal estándar cuando las cantidades son estadísticamente independientes:

dónde

A esto a veces se le conoce como prueba de Mann-Kendall. [6]

Algoritmos

El cálculo directo del numerador implica dos iteraciones anidadas, como se caracteriza por el siguiente pseudocódigo:

número := 0 para i := 2..N hacer  para j := 1..(i − 1) hacer número := número + signo(x[i] − x[j]) × signo(y[i] − y[j])número de retorno

Aunque es rápido de implementar, este algoritmo es complejo y se vuelve muy lento en muestras grandes. Se puede utilizar un algoritmo más sofisticado [17] basado en el algoritmo Merge Sort para calcular el numerador en el tiempo.

Comience ordenando sus puntos de datos por la primera cantidad, y en segundo lugar (entre los vínculos en ) por la segunda cantidad . Con este orden inicial, no se ordena, y el núcleo del algoritmo consiste en calcular cuántos pasos tomaría un Bubble Sort para ordenar este orden inicial . Se puede aplicar un algoritmo Merge Sort mejorado , con complejidad, para calcular el número de intercambios que necesitaría un Bubble Sort para ordenar . Entonces el numerador de se calcula como:

donde se calcula como y , pero con respecto a los vínculos conjuntos en y .

Un Merge Sort divide los datos que se van a ordenar en dos mitades aproximadamente iguales y luego ordena cada mitad de forma recursiva y luego fusiona las dos mitades ordenadas en un vector completamente ordenado. El número de intercambios de Bubble Sort es igual a:

donde y son las versiones ordenadas de y y caracteriza el equivalente de intercambio de clasificación de burbujas para una operación de fusión. se calcula como se muestra en el siguiente pseudocódigo:

la función M(L[1..n], R[1..m]) es yo := 1 j := 1 nIntercambios := 0 mientras que i ≤ n y j ≤ m lo hacemos  si R[j] < L[i] entonces nIntercambios := nIntercambios + n − i + 1 j := j + 1 demás yo := yo + 1 devolver nSwaps

Un efecto secundario de los pasos anteriores es que terminará con una versión ordenada y una versión ordenada de . Con estos, los factores utilizados para calcular se obtienen fácilmente en un solo paso de tiempo lineal a través de las matrices ordenadas.

Implementaciones de software

Ver también

Referencias

  1. ^ Kendall, M. (1938). "Una nueva medida de correlación de rangos". Biometrika . 30 (1–2): 81–89. doi :10.1093/biomet/30.1-2.81. JSTOR  2332226.
  2. ^ Kruskal, WH (1958). "Medidas Ordinales de Asociación". Revista de la Asociación Estadounidense de Estadística . 53 (284): 814–861. doi :10.2307/2281954. JSTOR  2281954. SEÑOR  0100941.
  3. ^ Nelsen, RB (2001) [1994], "Kendall tau metric", Enciclopedia de Matemáticas , EMS Press
  4. ^ Prokhorov, AV (2001) [1994], "Coeficiente de correlación de rango de Kendall", Enciclopedia de Matemáticas , EMS Press
  5. ^ Valz, Paul D.; McLeod, A. Ian (febrero de 1990). "Una derivación simplificada de la varianza del coeficiente de correlación de rangos de Kendall". El estadístico estadounidense . 44 (1): 39–40. doi :10.1080/00031305.1990.10475691. ISSN  0003-1305.
  6. ^ ab Valz, Paul D.; McLeod, A. Ian; Thompson, Mary E. (febrero de 1995). "Aproximaciones de función generadora de cumulantes y probabilidad de cola para la puntuación de Kendall con clasificaciones empatadas". Los anales de la estadística . 23 (1): 144-160. doi : 10.1214/aos/1176324460 . ISSN  0090-5364.
  7. ^ Hoeffding, Wassily (1992), Kotz, Samuel; Johnson, Norman L. (eds.), "Una clase de estadística con distribución asintóticamente normal", Avances en estadística: fundamentos y teoría básica , Springer Series in Statistics, Nueva York, NY: Springer, págs. 308–334, doi : 10.1007/978-1-4612-0919-5_20, ISBN 978-1-4612-0919-5, recuperado el 19 de enero de 2024
  8. ^ Kendall, MG (1949). "Rango y correlación producto-momento". Biometrika . 36 (1/2): 177–193. doi :10.2307/2332540. ISSN  0006-3444.
  9. ^ Richard Greiner, (1909), Ueber das Fehlersystem der Kollektiv-maßlehre , Zeitschrift für Mathematik und Physik, Band 57, BG Teubner, Leipzig, páginas 121-158, 225-260, 337-373.
  10. ^ Morán, PAP (1948). "Correlación de rango y correlación producto-momento". Biometrika . 35 (1/2): 203–206. doi :10.2307/2332641. ISSN  0006-3444.
  11. ^ Berger, Daniel (2016). "Una prueba de la igualdad de Greiner". Revista Electrónica SSRN . doi :10.2139/ssrn.2830471. ISSN  1556-5068.
  12. ^ Agresti, A. (2010). Análisis de datos categóricos ordinales (Segunda ed.). Nueva York: John Wiley & Sons. ISBN 978-0-470-08289-8.
  13. ^ Alfred Brophy (1986). "Un algoritmo y programa para el cálculo del coeficiente de correlación de rango de Kendall" (PDF) . Métodos, instrumentos y computadoras de investigación del comportamiento . 18 : 45–46. doi :10.3758/BF03200993. S2CID  62601552.
  14. ^ IBM (2016). IBM SPSS Estadísticas 24 Algoritmos. IBM. pag. 168 . Consultado el 31 de agosto de 2017 .
  15. ^ ab Berry, KJ; Johnston, JE; Zahrán, S.; Mielke, PW (2009). "Medida tau de Stuart del tamaño del efecto para variables ordinales: algunas consideraciones metodológicas". Métodos de investigación del comportamiento . 41 (4): 1144-1148. doi : 10.3758/brm.41.4.1144 . PMID  19897822.
  16. ^ ab Stuart, A. (1953). "La estimación y comparación de fortalezas de asociación en tablas de contingencia". Biometrika . 40 (1–2): 105–110. doi :10.2307/2333101. JSTOR  2333101.
  17. ^ Caballero, W. (1966). "Un método informático para calcular la Tau de Kendall con datos desagrupados". Revista de la Asociación Estadounidense de Estadística . 61 (314): 436–439. doi :10.2307/2282833. JSTOR  2282833.

Otras lecturas

enlaces externos