La correlación de Spearman entre dos variables es igual a la correlación de Pearson entre los valores de rango de esas dos variables; mientras que la correlación de Pearson evalúa las relaciones lineales, la correlación de Spearman evalúa las relaciones monótonas (sean lineales o no). Si no hay valores de datos repetidos, se produce una correlación de Spearman perfecta de +1 o -1 cuando cada una de las variables es una función monótona perfecta de la otra.
Intuitivamente, la correlación de Spearman entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, etiqueta de posición relativa de las observaciones dentro de la variable: 1.º, 2.º, 3.º, etc.) entre las dos variables, y baja cuando las observaciones tengan un rango diferente (o completamente opuesto para una correlación de -1) entre las dos variables.
El coeficiente se puede utilizar para determinar qué tan bien se ajustan los datos a un modelo, [4] como cuando se determina la similitud de documentos de texto. [5]
Sólo cuando todos los rangos son números enteros distintos (sin empates), se puede calcular utilizando la fórmula popular
dónde
es la diferencia entre los dos rangos de cada observación,
es el número de observaciones.
[Prueba]
Considere una muestra bivariada con pares de rangos correspondientes.
Entonces, el coeficiente de correlación de Spearman de es
donde, como de costumbre,
y
Demostraremos que puede expresarse puramente en términos de
siempre que supongamos que no hay vínculos dentro de cada muestra.
Bajo este supuesto, tenemos que pueden verse como variables aleatorias distribuidas como una variable aleatoria discreta uniformemente distribuida, en
Por lo tanto
y
donde
A los valores idénticos se les asignan generalmente [7] rangos fraccionarios iguales al promedio de sus posiciones en el orden ascendente de los valores, lo que equivale a promediar todas las permutaciones posibles.
Si hay empates en el conjunto de datos, la fórmula simplificada anterior arroja resultados incorrectos: solo si en ambas variables todos los rangos son distintos, entonces (calculado de acuerdo con la varianza sesgada). La primera ecuación (normalización por la desviación estándar) puede utilizarse incluso cuando los rangos están normalizados a [0, 1] ("rangos relativos") porque es insensible tanto a la traducción como al escalamiento lineal.
El método simplificado tampoco debe utilizarse en casos en que el conjunto de datos esté truncado; es decir, cuando se desea el coeficiente de correlación de Spearman para los X registros principales (ya sea por rango previo al cambio o por rango posterior al cambio, o ambos), el usuario debe utilizar la fórmula del coeficiente de correlación de Pearson indicada anteriormente. [8]
Cantidades relacionadas
Existen otras medidas numéricas que cuantifican el grado de dependencia estadística entre pares de observaciones. La más común de ellas es el coeficiente de correlación producto-momento de Pearson , que es un método de correlación similar al rango de Spearman, que mide las relaciones “lineales” entre los números brutos en lugar de entre sus rangos.
Un nombre alternativo para la correlación de rangos de Spearman es “correlación de grado”; [9] en este caso, el “rango” de una observación se reemplaza por el “grado”. En distribuciones continuas, el grado de una observación es, por convención, siempre la mitad menor que el rango, y por lo tanto las correlaciones de grado y rango son las mismas en este caso. De manera más general, el “grado” de una observación es proporcional a una estimación de la fracción de una población menor que un valor dado, con el ajuste de la mitad de la observación en los valores observados. Por lo tanto, esto corresponde a un posible tratamiento de los rangos empatados. Si bien es inusual, el término “correlación de grado” todavía se usa. [10]
Interpretación
Correlaciones de rangos de Spearman positivas y negativas
El signo de la correlación de Spearman indica la dirección de asociación entre X (la variable independiente) e Y (la variable dependiente). Si Y tiende a aumentar cuando X aumenta, el coeficiente de correlación de Spearman es positivo. Si Y tiende a disminuir cuando X aumenta, el coeficiente de correlación de Spearman es negativo. Una correlación de Spearman de cero indica que no hay tendencia a que Y aumente o disminuya cuando X aumenta. La correlación de Spearman aumenta en magnitud a medida que X e Y se acercan a ser funciones perfectamente monótonas entre sí. Cuando X e Y están perfectamente relacionadas de manera monótona, el coeficiente de correlación de Spearman se convierte en 1. Una relación creciente perfectamente monótona implica que para dos pares cualesquiera de valores de datos X i , Y i y X j , Y j , que X i − X j y Y i − Y j siempre tienen el mismo signo. Una relación decreciente perfectamente monótona implica que estas diferencias siempre tienen signos opuestos.
El coeficiente de correlación de Spearman se describe a menudo como "no paramétrico". Esto puede tener dos significados. En primer lugar, una correlación de Spearman perfecta resulta cuando X e Y están relacionados por cualquier función monótona . Compárese esto con la correlación de Pearson, que solo da un valor perfecto cuando X e Y están relacionados por una función lineal . El otro sentido en el que la correlación de Spearman es no paramétrica es que su distribución de muestreo exacta se puede obtener sin requerir conocimiento (es decir, conocer los parámetros) de la distribución de probabilidad conjunta de X e Y.
Ejemplo
En este ejemplo, los datos brutos arbitrarios de la tabla siguiente se utilizan para calcular la correlación entre el coeficiente intelectual de una persona y el número de horas que pasa frente al televisor por semana [se utilizan valores ficticios].
En primer lugar, evalúe . Para ello, siga los pasos que se indican a continuación, reflejados en la tabla siguiente.
Ordena los datos por la primera columna ( ). Crea una nueva columna y asígnale los valores clasificados 1, 2, 3, ..., n .
A continuación, ordena los datos aumentados (con ) por la segunda columna ( ). Crea una cuarta columna y asígnale de manera similar los valores clasificados 1, 2, 3, ..., n .
Crea una quinta columna para contener las diferencias entre las dos columnas de rango ( y ).
Crea una columna final para contener el valor de la columna al cuadrado.
Con encontrado, súmelos para encontrar . El valor de n es 10. Ahora, estos valores se pueden sustituir nuevamente en la ecuación.
dar
que evalúa a ρ = −29/165 = −0,175757575... con un valor p = 0,627188 (usando la distribución t ).
El hecho de que el valor sea cercano a cero muestra que la correlación entre el CI y las horas dedicadas a ver televisión es muy baja, aunque el valor negativo sugiere que cuanto mayor es el tiempo dedicado a ver televisión, menor es el CI. En caso de empates en los valores originales, no se debe utilizar esta fórmula; en su lugar, se debe calcular el coeficiente de correlación de Pearson sobre los rangos (donde los empates reciben rangos, como se ha descrito anteriormente).
Intervalos de confianza
Los intervalos de confianza para ρ de Spearman se pueden obtener fácilmente utilizando el enfoque de verosimilitud euclidiana de Jackknife en de Carvalho y Marques (2012). [11] El intervalo de confianza con nivel se basa en un teorema de Wilks dado en el último artículo, y se da por
donde es el cuartil de una distribución de chi-cuadrado con un grado de libertad, y son pseudovalores de tipo jackknife. Este enfoque se implementa en el paquete R spearmanCI.
Determinación de la importancia
Un método para comprobar si un valor observado de ρ es significativamente diferente de cero ( r siempre mantendrá −1 ≤ r ≤ 1 ) es calcular la probabilidad de que sea mayor o igual que el r observado , dada la hipótesis nula , mediante una prueba de permutación . Una ventaja de este método es que tiene en cuenta automáticamente la cantidad de valores de datos empatados en la muestra y la forma en que se tratan al calcular la correlación de rango.
Otro enfoque es paralelo al uso de la transformación de Fisher en el caso del coeficiente de correlación producto-momento de Pearson. Es decir, los intervalos de confianza y las pruebas de hipótesis relacionadas con el valor de la población ρ se pueden realizar utilizando la transformación de Fisher:
Si F ( r ) es la transformación de Fisher de r , el coeficiente de correlación de rango de Spearman de la muestra, y n es el tamaño de la muestra, entonces
que se distribuye aproximadamente como una distribución t de Student con n − 2 grados de libertad bajo la hipótesis nula . [14] Una justificación para este resultado se basa en un argumento de permutación. [15]
Una generalización del coeficiente de Spearman es útil en situaciones en las que hay tres o más condiciones, se observa a varios sujetos en cada una de ellas y se predice que las observaciones tendrán un orden particular. Por ejemplo, se puede dar a varios sujetos tres ensayos de la misma tarea y se predice que el desempeño mejorará de ensayo en ensayo. EB Page [16] desarrolló una prueba de la significancia de la tendencia entre condiciones en esta situación , que generalmente se conoce como prueba de tendencia de Page para alternativas ordenadas.
Existe un equivalente de este método, llamado análisis de correspondencia de grados, que maximiza el ρ de Spearman o el τ de Kendall . [17]
Aproximación de SpearmanρDe un arroyo
Existen dos enfoques existentes para aproximar el coeficiente de correlación de rango de Spearman a partir de datos de streaming. [18] [19] El primer enfoque [18]
implica hacer más gruesa la distribución conjunta de . Para valores continuos: se seleccionan puntos de corte para y respectivamente, discretizando estas variables aleatorias. Los puntos de corte predeterminados se agregan en y . Luego se construye una matriz de conteo de tamaño , denotada , donde almacena el número de observaciones que caen en la celda bidimensional indexada por . Para datos de streaming, cuando llega una nueva observación, se incrementa el elemento apropiado. Luego se puede calcular la correlación de rango de Spearman, en función de la matriz de conteo , utilizando operaciones de álgebra lineal (Algoritmo 2 [18] ). Tenga en cuenta que para variables aleatorias discretas, no es necesario ningún procedimiento de discretización. Este método es aplicable a datos de streaming estacionarios, así como a grandes conjuntos de datos. Para datos de streaming no estacionarios, donde el coeficiente de correlación de rango de Spearman puede cambiar con el tiempo, se puede aplicar el mismo procedimiento, pero a una ventana móvil de observaciones. Al utilizar una ventana móvil, los requisitos de memoria crecen linealmente con el tamaño de ventana elegido.
El segundo enfoque para aproximar el coeficiente de correlación de rango de Spearman a partir de datos de transmisión implica el uso de estimadores basados en series de Hermite. [19] Estos estimadores, basados en polinomios de Hermite , permiten la estimación secuencial de la función de densidad de probabilidad y la función de distribución acumulativa en casos univariados y bivariados. Los estimadores de densidad de series de Hermite bivariados y los estimadores de función de distribución acumulativa basados en series de Hermite univariadas se conectan a una versión de muestra grande del estimador del coeficiente de correlación de rango de Spearman, para dar un estimador de correlación de Spearman secuencial. Este estimador está expresado en términos de operaciones de álgebra lineal para eficiencia computacional (ecuación (8) y algoritmo 1 y 2 [19] ). Estos algoritmos solo son aplicables a datos de variables aleatorias continuas, pero tienen ciertas ventajas sobre el enfoque de matriz de conteo en este entorno. La primera ventaja es una precisión mejorada cuando se aplica a grandes cantidades de observaciones. La segunda ventaja es que el coeficiente de correlación de rango de Spearman se puede calcular en flujos no estacionarios sin depender de una ventana móvil. En cambio, el estimador basado en la serie de Hermite utiliza un esquema de ponderación exponencial para rastrear la correlación de rango de Spearman que varía con el tiempo a partir de datos de flujo, que tiene requisitos de memoria constantes con respecto al tamaño "efectivo" de la ventana móvil. Existe una implementación de software de estos algoritmos basados en la serie de Hermite [20] y se analiza en Implementaciones de software.
Implementaciones de software
El paquete base de estadísticas de Rcor(x, y, method = "spearman") implementa la prueba cor.test(x, y, method = "spearman") en su paquete "stats" (también funcionará. El paquete spearmanCI calcula intervalos de confianza. El paquete hermiter [20] calcula estimaciones rápidas por lotes de la correlación de Spearman junto con estimaciones secuenciales (es decir, estimaciones que se actualizan de manera en línea/incremental a medida que se incorporan nuevas observaciones).
Implementación de Stata : calcula todos los coeficientes de correlación por pares para todas las variables en varlist . spearman varlist
Implementación de MATLAB : [r,p] = corr(x,y,'Type','Spearman')donde res el coeficiente de correlación de rango de Spearman, pes el valor p y xy yson vectores. [21]
Python tiene muchas implementaciones diferentes de la estadística de correlación de Spearman: se puede calcular con la función spearmanr del scipy.statsmódulo, así como con el DataFrame.corr(method='spearman')método de la biblioteca pandas y la corr(x, y, method='spearman')función del paquete estadístico pingouin.
^ Spearman, C. (enero de 1904). "La prueba y la medición de la asociación entre dos cosas" (PDF) . The American Journal of Psychology . 15 (1): 72–101. doi :10.2307/1412159. JSTOR 1412159.
^ Lehman, Ann (2005). Jmp para estadísticas univariadas y multivariadas básicas: una guía paso a paso . Cary, NC: SAS Press. p. 123. ISBN978-1-59047-576-8.
^ Royal Geographic Society. "Una guía para el rango de Spearman" (PDF) .
^ Nino Arsov; Milan Dukovski; Milan Dukovski; Blagoja Evkoski (noviembre de 2019). "Una medida de similitud en datos textuales utilizando el coeficiente de correlación de rangos de Spearman".
^ Myers, Jerome L.; Well, Arnold D. (2003). Diseño de investigación y análisis estadístico (2.ª ed.). Lawrence Erlbaum. pp. 508. ISBN978-0-8058-4037-7.
^ Esquivar, Yadolah, ed. (2010). La enciclopedia concisa de estadística . Nueva York, Nueva York: Springer-Verlag. pag. 502.ISBN978-0-387-31742-7.
^ Al Jaber, Ahmed Odeh; Elayyan, Haifaa Omar (2018). Hacia la garantía de calidad y la excelencia en la educación superior . River Publishers. pág. 284. ISBN978-87-93609-54-9.
^ Yule, GU; Kendall, MG (1968) [1950]. Introducción a la teoría de la estadística (14.ª ed.). Charles Griffin & Co., pág. 268.
^ Piantadosi, J.; Howlett, P.; Boland, J. (2007). "Coincidencia del coeficiente de correlación de grado utilizando una cópula con máximo desorden". Journal of Industrial and Management Optimization . 3 (2): 305–312. doi : 10.3934/jimo.2007.3.305 .
^ de Carvalho, M.; Marques, F. (2012). "Inferencia basada en verosimilitud euclidiana de Jackknife para rho de Spearman" (PDF) . Revista Actuarial de América del Norte . 16 (4): 487‒492. doi :10.1080/10920277.2012.10597644. S2CID 55046385.
^ Choi, SC (1977). "Pruebas de igualdad de coeficientes de correlación dependientes". Biometrika . 64 (3): 645–647. doi :10.1093/biomet/64.3.645.
^ Fieller, EC; Hartley, HO; Pearson, ES (1957). "Pruebas para coeficientes de correlación de rangos. I". Biometrika . 44 (3–4): 470–481. CiteSeerX 10.1.1.474.9634 . doi :10.1093/biomet/44.3-4.470.
^ Press; Vettering; Teukolsky; Flannery (1992). Recetas numéricas en C: el arte de la computación científica (2.ª ed.). Cambridge University Press. pág. 640. ISBN9780521437202.
^ Kendall, MG; Stuart, A. (1973). "Secciones 31.19, 31.21". La teoría avanzada de la estadística, volumen 2: inferencia y relación . Griffin. ISBN978-0-85264-215-3.
^ Page, EB (1963). "Hipótesis ordenadas para tratamientos múltiples: una prueba de significación para rangos lineales". Revista de la Asociación Estadounidense de Estadística . 58 (301): 216–230. doi :10.2307/2282965. JSTOR 2282965.
^ Kowalczyk, T.; Pleszczyńska, E.; Ruland, F., eds. (2004). Modelos y métodos de calificación para análisis de datos con aplicaciones para el análisis de poblaciones de datos . Estudios sobre borrosidad y computación blanda. Vol. 151. Berlín Heidelberg Nueva York: Springer Verlag. ISBN978-3-540-21120-4.
^ abc Xiao, W. (2019). "Nuevos algoritmos en línea para correlaciones no paramétricas con aplicación para analizar datos de sensores". Conferencia internacional IEEE sobre Big Data de 2019 (Big Data) . págs. 404–412. doi :10.1109/BigData47090.2019.9006483. ISBN978-1-7281-0858-2.S2CID211298570 .
^ abc Stephanou, Michael; Varughese, Melvin (julio de 2021). "Estimación secuencial de la correlación de rangos de Spearman utilizando estimadores de series de Hermite". Revista de análisis multivariante . 186 : 104783. arXiv : 2012.06287 . doi :10.1016/j.jmva.2021.104783. S2CID: 235742634.
^ ab Stephanou, M. y Varughese, M (2023). "Hermiter: paquete R para estimación secuencial no paramétrica". Estadística computacional . arXiv : 2111.14091 . doi :10.1007/s00180-023-01382-0. S2CID 244715035.{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ "Correlación lineal o de rango - MATLAB corr". www.mathworks.com .
Lectura adicional
Corder, G. W. y Foreman, D. I. (2014). Estadísticas no paramétricas: un enfoque paso a paso, Wiley. ISBN 978-1118840313 .
Daniel, Wayne W. (1990). "Coeficiente de correlación de rangos de Spearman". Applied Nonparametric Statistics (2.ª ed.). Boston: PWS-Kent. págs. 358–365. ISBN 978-0-534-91976-4.
Spearman C. (1904). "La prueba y medición de la asociación entre dos cosas". Revista Americana de Psicología . 15 (1): 72–101. doi :10.2307/1412159. JSTOR 1412159.
Bonett DG, Wright, TA (2000). "Requisitos de tamaño de muestra para las correlaciones de Pearson, Kendall y Spearman". Psychometrika . 65 : 23–28. doi :10.1007/bf02294183. S2CID 120558581.{{cite journal}}: CS1 maint: multiple names: authors list (link)
Kendall MG (1970). Métodos de correlación de rangos (4.ª ed.). Londres: Griffin. ISBN 978-0-852-6419-96.OCLC 136868 .
Hollander M., Wolfe DA (1973). Métodos estadísticos no paramétricos . Nueva York: Wiley. ISBN 978-0-471-40635-8.OCLC 520735 .
Caruso JC, Cliff N. (1997). "Tamaño empírico, cobertura y potencia de los intervalos de confianza para la Rho de Spearman". Medición educativa y psicológica . 57 (4): 637–654. doi :10.1177/0013164497057004009. S2CID 120481551.
Enlaces externos
Wikiversidad tiene recursos de aprendizaje sobre el coeficiente de correlación de rangos de Spearman
Tabla de valores críticos de ρ para significación con muestras pequeñas
Coeficiente de correlación de rango de Spearman – Guía de Excel: datos de muestra y fórmulas para Excel, desarrollado por la Royal Geographical Society .