En estadística , una correlación de rango es cualquiera de varias estadísticas que miden una asociación ordinal : la relación entre las clasificaciones de diferentes variables ordinales o diferentes clasificaciones de la misma variable, donde una "clasificación" es la asignación de las etiquetas de ordenación "primero", "segundo", "tercero", etc. a diferentes observaciones de una variable en particular. Un coeficiente de correlación de rango mide el grado de similitud entre dos clasificaciones y se puede utilizar para evaluar la importancia de la relación entre ellas. Por ejemplo, dos métodos no paramétricos comunes de significación que utilizan la correlación de rango son la prueba U de Mann-Whitney y la prueba de rangos con signo de Wilcoxon .
Si, por ejemplo, una variable es la identidad de un programa de baloncesto universitario y otra variable es la identidad de un programa de fútbol universitario, se podría comprobar si existe una relación entre las clasificaciones de los dos tipos de programas en las encuestas: ¿las universidades con un programa de baloncesto mejor clasificado tienden a tener un programa de fútbol mejor clasificado? Un coeficiente de correlación de rangos puede medir esa relación, y la medida de significancia del coeficiente de correlación de rangos puede mostrar si la relación medida es lo suficientemente pequeña como para ser probablemente una coincidencia.
Si solo hay una variable, la identidad de un programa de fútbol universitario, pero está sujeta a dos clasificaciones de encuestas diferentes (por ejemplo, una de entrenadores y otra de periodistas deportivos), entonces la similitud de las clasificaciones de las dos encuestas diferentes se puede medir con un coeficiente de correlación de rango.
Como otro ejemplo, en una tabla de contingencia con ingresos bajos , ingresos medios y ingresos altos en la variable de fila y nivel educativo ( sin escuela secundaria , escuela secundaria , universidad ) en la variable de columna), [1] una correlación de rango mide la relación entre los ingresos y el nivel educativo.
Algunas de las estadísticas de correlación de rango más populares incluyen
Un coeficiente de correlación de rango creciente implica una concordancia creciente entre las clasificaciones. El coeficiente está dentro del intervalo [−1, 1] y asume el valor:
Siguiendo a Diaconis (1988), una clasificación puede verse como una permutación de un conjunto de objetos. Por lo tanto, podemos considerar las clasificaciones observadas como datos obtenidos cuando el espacio muestral es (identificado con) un grupo simétrico . Luego podemos introducir una métrica , convirtiendo el grupo simétrico en un espacio métrico . Diferentes métricas corresponderán a diferentes correlaciones de rango.
Kendall 1970 [2] demostró que su (tau) y el (rho) de Spearman son casos particulares de un coeficiente de correlación general.
Supongamos que tenemos un conjunto de objetos, que se están considerando en relación con dos propiedades, representadas por y , que forman los conjuntos de valores y . A cualquier par de individuos, digamos el -ésimo y el -ésimo, le asignamos una puntuación , denotada por , y una puntuación , denotada por . El único requisito para estas funciones es que sean antisimétricas, por lo que y . (Obsérvese que, en particular , si ). Entonces, el coeficiente de correlación generalizado se define como
De manera equivalente, si todos los coeficientes se agrupan en matrices y , con y , entonces
donde es el producto interno de Frobenius y la norma de Frobenius . En particular, el coeficiente de correlación general es el coseno del ángulo entre las matrices y .
Si , son los rangos del -miembro según la -calidad y -calidad respectivamente, entonces podemos definir
La suma es el número de pares concordantes menos el número de pares discordantes (véase el coeficiente de correlación de rango tau de Kendall ). La suma es simplemente , el número de términos , como es . Por lo tanto, en este caso,
Si , son los rangos del -miembro según la y la -calidad respectivamente, podemos considerar las matrices definidas por
Las sumas y son iguales, ya que tanto y varían de a . Por lo tanto
Para simplificar esta expresión, denotemos la diferencia en los rangos para cada . Además, sea una variable aleatoria discreta uniformemente distribuida en . Dado que los rangos son simplemente permutaciones de , podemos ver ambas como variables aleatorias distribuidas como . Usando resultados de suma básicos de matemáticas discretas, es fácil ver que para la variable aleatoria uniformemente distribuida, , tenemos y y por lo tanto . Ahora, observar simetrías nos permite calcular las partes de de la siguiente manera:
y
Por eso
donde es la diferencia entre rangos, que es exactamente el coeficiente de correlación de rangos de Spearman .
Gene Glass (1965) señaló que la correlación biserial de rangos se puede derivar de la de Spearman . "Se puede derivar un coeficiente definido en X , la variable dicotómica, e Y , la variable de clasificación, que estima la rho de Spearman entre X e Y de la misma manera que la r biserial estima la r de Pearson entre dos variables normales" (p. 91). La correlación biserial de rangos había sido introducida nueve años antes por Edward Cureton (1956) como una medida de correlación de rangos cuando los rangos están en dos grupos.
Dave Kerby (2014) recomendó el método de correlación de rangos biserial como medida para introducir a los estudiantes a la correlación de rangos, porque la lógica general se puede explicar a un nivel introductorio. El método de correlación de rangos biserial es la correlación que se utiliza con la prueba U de Mann-Whitney , un método que se suele cubrir en los cursos universitarios introductorios de estadística. Los datos para esta prueba constan de dos grupos; y para cada miembro de los grupos, el resultado se clasifica para el estudio en su conjunto.
Kerby demostró que esta correlación de rangos se puede expresar en términos de dos conceptos: el porcentaje de datos que respaldan una hipótesis establecida y el porcentaje de datos que no la respaldan. La fórmula de diferencia simple de Kerby establece que la correlación de rangos se puede expresar como la diferencia entre la proporción de evidencia favorable ( f ) menos la proporción de evidencia desfavorable ( u ).
Para ilustrar el cálculo, supongamos que un entrenador entrena a corredores de larga distancia durante un mes utilizando dos métodos. El grupo A tiene 5 corredores y el grupo B tiene 4 corredores. La hipótesis establecida es que el método A produce corredores más rápidos. La carrera para evaluar los resultados descubre que los corredores del grupo A corren efectivamente más rápido, con los siguientes rangos: 1, 2, 3, 4 y 6. Los corredores más lentos del grupo B tienen los rangos 5, 7, 8 y 9.
El análisis se realiza en pares, definidos como un miembro de un grupo comparado con un miembro del otro grupo. Por ejemplo, el corredor más rápido en el estudio es miembro de cuatro pares: (1,5), (1,7), (1,8) y (1,9). Los cuatro pares respaldan la hipótesis, porque en cada par el corredor del Grupo A es más rápido que el corredor del Grupo B. Hay un total de 20 pares, y 19 pares respaldan la hipótesis. El único par que no respalda la hipótesis son los dos corredores con los rangos 5 y 6, porque en este par, el corredor del Grupo B tuvo el tiempo más rápido. Por la fórmula de diferencia simple de Kerby, el 95% de los datos respaldan la hipótesis (19 de 20 pares), y el 5% no la respalda (1 de 20 pares), por lo que la correlación de rango es r = .95 − .05 = .90.
El valor máximo de la correlación es r = 1, lo que significa que el 100% de los pares favorecen la hipótesis. Una correlación de r = 0 indica que la mitad de los pares favorecen la hipótesis y la otra mitad no; en otras palabras, los grupos de muestra no difieren en rangos, por lo que no hay evidencia de que provengan de dos poblaciones diferentes. Se puede decir que un tamaño del efecto de r = 0 describe que no existe relación entre la pertenencia al grupo y los rangos de los miembros.