Correlación de rangos

En estadística , una correlación de rango es cualquiera de varias estadísticas que miden una asociación ordinal : la relación entre las clasificaciones de diferentes variables ordinales o diferentes clasificaciones de la misma variable, donde una "clasificación" es la asignación de las etiquetas de ordenación "primero", "segundo", "tercero", etc. a diferentes observaciones de una variable en particular. Un coeficiente de correlación de rango mide el grado de similitud entre dos clasificaciones y se puede utilizar para evaluar la importancia de la relación entre ellas. Por ejemplo, dos métodos no paramétricos comunes de significación que utilizan la correlación de rango son la prueba U de Mann-Whitney y la prueba de rangos con signo de Wilcoxon .

Contexto

Si, por ejemplo, una variable es la identidad de un programa de baloncesto universitario y otra variable es la identidad de un programa de fútbol universitario, se podría comprobar si existe una relación entre las clasificaciones de los dos tipos de programas en las encuestas: ¿las universidades con un programa de baloncesto mejor clasificado tienden a tener un programa de fútbol mejor clasificado? Un coeficiente de correlación de rangos puede medir esa relación, y la medida de significancia del coeficiente de correlación de rangos puede mostrar si la relación medida es lo suficientemente pequeña como para ser probablemente una coincidencia.

Si solo hay una variable, la identidad de un programa de fútbol universitario, pero está sujeta a dos clasificaciones de encuestas diferentes (por ejemplo, una de entrenadores y otra de periodistas deportivos), entonces la similitud de las clasificaciones de las dos encuestas diferentes se puede medir con un coeficiente de correlación de rango.

Como otro ejemplo, en una tabla de contingencia con ingresos bajos , ingresos medios y ingresos altos en la variable de fila y nivel educativo ( sin escuela secundaria , escuela secundaria , universidad ) en la variable de columna), ^[1] una correlación de rango mide la relación entre los ingresos y el nivel educativo.

Coeficientes de correlación

Algunas de las estadísticas de correlación de rango más populares incluyen

Un coeficiente de correlación de rango creciente implica una concordancia creciente entre las clasificaciones. El coeficiente está dentro del intervalo [−1, 1] y asume el valor:

1 si el acuerdo entre las dos clasificaciones es perfecto; las dos clasificaciones son iguales.
0 si las clasificaciones son completamente independientes.
−1 si el desacuerdo entre las dos clasificaciones es perfecto; una clasificación es inversa a la otra.

Siguiendo a Diaconis (1988), una clasificación puede verse como una permutación de un conjunto de objetos. Por lo tanto, podemos considerar las clasificaciones observadas como datos obtenidos cuando el espacio muestral es (identificado con) un grupo simétrico . Luego podemos introducir una métrica , convirtiendo el grupo simétrico en un espacio métrico . Diferentes métricas corresponderán a diferentes correlaciones de rango.

Coeficiente de correlación general

Kendall 1970 ^[2] demostró que su (tau) y el (rho) de Spearman son casos particulares de un coeficiente de correlación general. ${\estilo de visualización \tau}$ ${\estilo de visualización \rho}$

Supongamos que tenemos un conjunto de objetos, que se están considerando en relación con dos propiedades, representadas por y , que forman los conjuntos de valores y . A cualquier par de individuos, digamos el -ésimo y el -ésimo, le asignamos una puntuación , denotada por , y una puntuación , denotada por . El único requisito para estas funciones es que sean antisimétricas, por lo que y . (Obsérvese que, en particular , si ). Entonces, el coeficiente de correlación generalizado se define como ${\estilo de visualización n}$ ${\estilo de visualización x}$ ${\estilo de visualización y}$ $\{x_{i}\}_{i\leq n}$ $\{y_{i}\}_{i\leq n}$ ${\estilo de visualización i}$ ${\estilo de visualización j}$ ${\estilo de visualización x}$ $estilo de visualización a_ {ij}}$ ${\estilo de visualización y}$ $Estilo de visualización b_{ij}}$ $a_{ij}=-a_{ji}$ $Estilo de visualización b_ {ij} = -b_ {ji}$ $a_{ij}=b_{ij}=0$ $i=j$ ${\estilo de visualización \Gamma}$

\Gamma ={\frac {\suma _{i,j=1}^{n}a_{ij}b_{ij}}{\sqrt {\suma _{i,j=1}^{n}a_{ij}^{2}\suma _{i,j=1}^{n}b_{ij}^{2}}}}

De manera equivalente, si todos los coeficientes se agrupan en matrices y , con y , entonces $A=(a_{ij})$ $B=(b_{ij})$ $A^{\textsf {T}}=-A$ $B^{\textsf {T}}=-B$

\Gamma ={\frac {\langle A,B\rangle _{\rm {F}}}{\|A\|_{\rm {F}}\|B\|_{\rm {F}}}}

donde es el producto interno de Frobenius y la norma de Frobenius . En particular, el coeficiente de correlación general es el coseno del ángulo entre las matrices y . $\langle A,B\rangle _{\rm {F}}$ $\|A\|_{\rm {F}}={\sqrt {\langle A,A\rangle _{\rm {F}}}}$ $A$ $B$

La τ de Kendall como caso particular

Si , son los rangos del -miembro según la -calidad y -calidad respectivamente, entonces podemos definir $r_{i}$ $s_{i}$ $i$ $x$ $y$

a_{ij}=\operatorname {sgn}(r_{j}-r_{i}),\quad b_{ij}=\operatorname {sgn}(s_{j}-s_{i}).

La suma es el número de pares concordantes menos el número de pares discordantes (véase el coeficiente de correlación de rango tau de Kendall ). La suma es simplemente , el número de términos , como es . Por lo tanto, en este caso, $\sum a_{ij}b_{ij}$ $\sum a_{ij}^{2}$ $n(n-1)/2$ $a_{ij}$ $\sum b_{ij}^{2}$

\Gamma ={\frac {2\,(({\text{number of concordant pairs}})-({\text{number of discordant pairs}}))}{n(n-1)}}={\text{Kendall's }}\tau

La ρ de Spearman como caso particular

Si , son los rangos del -miembro según la y la -calidad respectivamente, podemos considerar las matrices definidas por $r_{i}$ $s_{i}$ $i$ $x$ $y$ $a,b\in M(n\times n;\mathbb {R} )$

a_{ij}:=r_{j}-r_{i}

b_{ij}:=s_{j}-s_{i}

Las sumas y son iguales, ya que tanto y varían de a . Por lo tanto $\sum a_{ij}^{2}$ $\sum b_{ij}^{2}$ $r_{i}$ $s_{i}$ $1$ $n$

\Gamma ={\frac {\sum (r_{j}-r_{i})(s_{j}-s_{i})}{\sum (r_{j}-r_{i})^{2}}}

Para simplificar esta expresión, denotemos la diferencia en los rangos para cada . Además, sea una variable aleatoria discreta uniformemente distribuida en . Dado que los rangos son simplemente permutaciones de , podemos ver ambas como variables aleatorias distribuidas como . Usando resultados de suma básicos de matemáticas discretas, es fácil ver que para la variable aleatoria uniformemente distribuida, , tenemos y y por lo tanto . Ahora, observar simetrías nos permite calcular las partes de de la siguiente manera: $d_{i}:=r_{i}-s_{i}$ $i$ $U$ $\{1,2,\ldots ,n\}$ $r,s$ $1,2,\ldots ,n$ $U$ $U$ $\mathbb {E} [U]=\textstyle {\frac {n+1}{2}}$ $\mathbb {E} [U^{2}]=\textstyle {\frac {(n+1)(2n+1)}{6}}$ $\mathrm {Var} (U)=\textstyle {\frac {(n+1)(2n+1)}{6}}-\textstyle {\frac {(n+1)(n+1)}{4}}=\textstyle {\frac {n^{2}-1}{12}}$ $\Gamma$

{\begin{aligned}{\frac {1}{n^{2}}}\sum _{i,j=1}^{n}(r_{j}-r_{i})(s_{j}-s_{i})&=2\left({\frac {1}{n^{2}}}\cdot n\sum _{i=1}^{n}r_{i}s_{i}-({\frac {1}{n}}\sum _{i=1}^{n}r_{i})({\frac {1}{n}}\sum _{j=1}^{n}s_{j})\right)\\&={\frac {1}{n}}\sum _{i=1}^{n}(r_{i}^{2}+s_{i}^{2}-d_{i}^{2})-2(\mathbb {E} [U])^{2}\\&={\frac {1}{n}}\sum _{i=1}^{n}r_{i}^{2}+{\frac {1}{n}}\sum _{i=1}^{n}s_{i}^{2}-{\frac {1}{n}}\sum _{i=1}^{n}d_{i}^{2}-2(\mathbb {E} [U])^{2}\\&=2(\mathbb {E} [U^{2}]-(\mathbb {E} [U])^{2})-{\frac {1}{n}}\sum _{i=1}^{n}d_{i}^{2}\\\end{aligned}}

{\begin{aligned}{\frac {1}{n^{2}}}\sum _{i,j=1}^{n}(r_{j}-r_{i})^{2}&={\frac {1}{n^{2}}}\cdot n\sum _{i,j=1}^{n}(r_{i}^{2}+r_{j}^{2}-2r_{i}r_{j})\\&=2{\frac {1}{n}}\sum _{i=1}^{n}r_{i}^{2}-2({\frac {1}{n}}\sum _{i=1}^{n}r_{i})({\frac {1}{n}}\sum _{j=1}^{n}r_{j})\\&=2(\mathbb {E} [U^{2}]-(\mathbb {E} [U])^{2})\\\end{aligned}}

Por eso

\Gamma =1-{\frac {\sum _{i=1}^{n}d_{i}^{2}}{2n\mathrm {Var} (U)}}=1-{\frac {6\sum _{i=1}^{n}d_{i}^{2}}{n(n^{2}-1)}}

donde es la diferencia entre rangos, que es exactamente el coeficiente de correlación de rangos de Spearman . $d_{i}=r_{i}-s_{i}$ $\rho$

Correlación biserial de rango

Gene Glass (1965) señaló que la correlación biserial de rangos se puede derivar de la correlación de Spearman . "Se puede derivar un coeficiente definido en X , la variable dicotómica, e Y , la variable de clasificación, que estima la rho de Spearman entre X e Y de la misma manera que la r biserial estima la r de Pearson entre dos variables normales" (p. 91). La correlación biserial de rangos había sido introducida nueve años antes por Edward Cureton (1956) como una medida de correlación de rangos cuando los rangos están en dos grupos. $\rho$

Fórmula de diferencia simple de Kerby

Dave Kerby (2014) recomendó el método de correlación de rangos biserial como medida para introducir a los estudiantes a la correlación de rangos, porque la lógica general se puede explicar a un nivel introductorio. El método de correlación de rangos biserial es la correlación que se utiliza con la prueba U de Mann-Whitney , un método que se suele cubrir en los cursos universitarios introductorios de estadística. Los datos para esta prueba constan de dos grupos; y para cada miembro de los grupos, el resultado se clasifica para el estudio en su conjunto.

Kerby demostró que esta correlación de rangos se puede expresar en términos de dos conceptos: el porcentaje de datos que respaldan una hipótesis establecida y el porcentaje de datos que no la respaldan. La fórmula de diferencia simple de Kerby establece que la correlación de rangos se puede expresar como la diferencia entre la proporción de evidencia favorable ( f ) menos la proporción de evidencia desfavorable ( u ).

r=f-u

Ejemplo e interpretación

Para ilustrar el cálculo, supongamos que un entrenador entrena a corredores de larga distancia durante un mes utilizando dos métodos. El grupo A tiene 5 corredores y el grupo B tiene 4 corredores. La hipótesis establecida es que el método A produce corredores más rápidos. La carrera para evaluar los resultados descubre que los corredores del grupo A corren efectivamente más rápido, con los siguientes rangos: 1, 2, 3, 4 y 6. Los corredores más lentos del grupo B tienen los rangos 5, 7, 8 y 9.

El análisis se realiza en pares, definidos como un miembro de un grupo comparado con un miembro del otro grupo. Por ejemplo, el corredor más rápido en el estudio es miembro de cuatro pares: (1,5), (1,7), (1,8) y (1,9). Los cuatro pares respaldan la hipótesis, porque en cada par el corredor del Grupo A es más rápido que el corredor del Grupo B. Hay un total de 20 pares, y 19 pares respaldan la hipótesis. El único par que no respalda la hipótesis son los dos corredores con los rangos 5 y 6, porque en este par, el corredor del Grupo B tuvo el tiempo más rápido. Por la fórmula de diferencia simple de Kerby, el 95% de los datos respaldan la hipótesis (19 de 20 pares), y el 5% no la respalda (1 de 20 pares), por lo que la correlación de rango es r = .95 − .05 = .90.

El valor máximo de la correlación es r = 1, lo que significa que el 100% de los pares favorecen la hipótesis. Una correlación de r = 0 indica que la mitad de los pares favorecen la hipótesis y la otra mitad no; en otras palabras, los grupos de muestra no difieren en rangos, por lo que no hay evidencia de que provengan de dos poblaciones diferentes. Se puede decir que un tamaño del efecto de r = 0 describe que no existe relación entre la pertenencia al grupo y los rangos de los miembros.

Referencias

^ Kruskal, William H. (1958). "Medidas ordinales de asociación". Revista de la Asociación Estadounidense de Estadística . 53 (284): 814–861. doi :10.2307/2281954. JSTOR 2281954.
^ Kendall, Maurice G (1970). Métodos de correlación de rangos (4.ª edición). Griffin. ISBN 9780852641996.

Lectura adicional

Cureton, Edward E. (1956). "Correlación biserial de rangos". Psychometrika . 21 (3): 287–290. doi :10.1007/BF02289138. S2CID 122500836.
Everitt, BS (2002), Diccionario de estadística de Cambridge , Cambridge: Cambridge University Press, ISBN 0-521-81099-X
Diaconis, P. (1988), Representaciones grupales en probabilidad y estadística , Serie de monografías de notas de clase, Hayward, CA: Instituto de Estadística Matemática, ISBN 0-940600-14-5
Glass, Gene V. (1965). "Una variable de clasificación análoga a la correlación biserial: implicaciones para el análisis de ítems de acceso directo". Journal of Educational Measurement . 2 (1): 91–95. doi :10.1111/j.1745-3984.1965.tb00396.x.
Kendall, MG (1970), Métodos de correlación de rangos , Londres: Griffin, ISBN 0-85264-199-0
Kerby, Dave S. (2014). "La fórmula de la diferencia simple: un enfoque para la enseñanza de la correlación no paramétrica". Psicología integral . 3 (1): 11.IT.3.1. doi : 10.2466/11.IT.3.1 (inactivo 2024-06-26).{{cite journal}}: CS1 maint: DOI inactive as of June 2024 (link)

Enlaces externos

Guía breve del psicólogo experimental Karl L. Weunsch: tamaños de efectos no paramétricos (Copyright 2015 de Karl L. Weunsch)