En estadística , el coeficiente de correlación de rangos de Spearman o ρ de Spearman , llamado así en honor a Charles Spearman [1] y a menudo denotado por la letra griega (rho) o as , es una medida no paramétrica de correlación de rangos ( dependencia estadística entre las clasificaciones de dos variables ). Evalúa qué tan bien se puede describir la relación entre dos variables utilizando una función monótona .
La correlación de Spearman entre dos variables es igual a la correlación de Pearson entre los valores de rango de esas dos variables; mientras que la correlación de Pearson evalúa relaciones lineales, la correlación de Spearman evalúa relaciones monótonas (lineales o no). Si no hay valores de datos repetidos, se produce una correlación de Spearman perfecta de +1 o −1 cuando cada una de las variables es una función monótona perfecta de la otra.
Intuitivamente, la correlación de Spearman entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, etiqueta de posición relativa de las observaciones dentro de la variable: 1.º, 2.º, 3.º, etc.) entre las dos. variables, y bajo cuando las observaciones tienen un rango diferente (o completamente opuesto para una correlación de −1) entre las dos variables.
El coeficiente de Spearman es apropiado tanto para variables ordinales continuas como discretas . [2] [3] Tanto el de Spearman como el de Kendall pueden formularse como casos especiales de un coeficiente de correlación más general .
El coeficiente se puede utilizar para determinar qué tan bien se ajustan los datos a un modelo, [4] o para determinar la similitud de documentos de texto. [5]
El coeficiente de correlación de Spearman se define como el coeficiente de correlación de Pearson entre las variables de rango . [6]
Para una muestra de tamaño n , las n puntuaciones brutas se convierten en rangos y se calculan como
dónde
Sólo si todos los n rangos son números enteros distintos , se puede calcular usando la fórmula popular
dónde
Considere una muestra bivariada con rangos correspondientes . Entonces el coeficiente de correlación de Spearman es
donde, como de costumbre, , , , y ,
Demostraremos que se puede expresar puramente en términos de , siempre que supongamos que no hay vínculos dentro de cada muestra.
Bajo este supuesto, tenemos que pueden verse como variables aleatorias distribuidas como una variable aleatoria distribuida uniformemente, , en . Por lo tanto y , dónde , y así . (Estas sumas se pueden calcular usando las fórmulas para el número triangular y el número piramidal cuadrado , o resultados de sumas básicos de matemáticas discretas).
Observa ahora que
Poniendo todo esto junto se obtiene
A los valores idénticos generalmente se les asignan [7] rangos fraccionarios iguales al promedio de sus posiciones en el orden ascendente de los valores, lo que equivale a promediar todas las permutaciones posibles.
Si hay empates en el conjunto de datos, la fórmula simplificada anterior produce resultados incorrectos: solo si en ambas variables todos los rangos son distintos, entonces (calculado según la varianza sesgada). La primera ecuación, normalizada por la desviación estándar, se puede utilizar incluso cuando los rangos están normalizados a [0, 1] ("rangos relativos") porque es insensible tanto a la traducción como a la escala lineal.
El método simplificado tampoco debe utilizarse en los casos en que el conjunto de datos esté truncado; es decir, cuando se desea el coeficiente de correlación de Spearman para los X registros principales (ya sea por rango previo al cambio o rango posterior al cambio, o ambos), el usuario debe usar la fórmula del coeficiente de correlación de Pearson proporcionada anteriormente. [8]
Hay varias otras medidas numéricas que cuantifican el grado de dependencia estadística entre pares de observaciones. El más común de ellos es el coeficiente de correlación momento-producto de Pearson , que es un método de correlación similar al rango de Spearman, que mide las relaciones "lineales" entre los números brutos en lugar de entre sus rangos.
Un nombre alternativo para la correlación de rangos de Spearman es “correlación de grados”; [9] en esto, el “rango” de una observación se reemplaza por el “grado”. En distribuciones continuas, la calificación de una observación es, por convención, siempre la mitad menor que el rango y, por lo tanto, las correlaciones de calificación y rango son las mismas en este caso. De manera más general, la “calificación” de una observación es proporcional a una estimación de la fracción de una población menor que un valor dado, con el ajuste de la mitad de la observación en los valores observados. Por tanto, esto corresponde a un posible tratamiento de las filas empatadas. Aunque es inusual, el término “correlación de calificaciones” todavía se utiliza. [10]
El signo de la correlación de Spearman indica la dirección de asociación entre X (la variable independiente) e Y (la variable dependiente). Si Y tiende a aumentar cuando X aumenta, el coeficiente de correlación de Spearman es positivo. Si Y tiende a disminuir cuando X aumenta, el coeficiente de correlación de Spearman es negativo. Una correlación de Spearman de cero indica que no hay tendencia para que Y aumente o disminuya cuando X aumenta. La correlación de Spearman aumenta en magnitud a medida que X e Y se acercan a ser funciones perfectamente monótonas entre sí. Cuando X e Y están perfectamente relacionados de manera monótona, el coeficiente de correlación de Spearman se vuelve 1. Una relación creciente perfectamente monótona implica que para dos pares cualesquiera de valores de datos X i , Y i y X j , Y j , que X i − X j e Y i − Y j siempre tienen el mismo signo. Una relación decreciente perfectamente monótona implica que estas diferencias siempre tienen signos opuestos.
El coeficiente de correlación de Spearman a menudo se describe como "no paramétrico". Esto puede tener dos significados. Primero, se produce una correlación de Spearman perfecta cuando X e Y están relacionados por cualquier función monótona . Compare esto con la correlación de Pearson, que sólo da un valor perfecto cuando X e Y están relacionados por una función lineal . El otro sentido en el que la correlación de Spearman es no paramétrica es que su distribución muestral exacta se puede obtener sin necesidad de conocer (es decir, conocer los parámetros) de la distribución de probabilidad conjunta de X e Y.
En este ejemplo, los datos brutos arbitrarios de la siguiente tabla se utilizan para calcular la correlación entre el coeficiente intelectual de una persona y el número de horas que pasa frente al televisor por semana [valores ficticios utilizados].
En primer lugar, evalúe . Para hacerlo, siga los siguientes pasos, reflejados en la siguiente tabla.
Con encontrado, agréguelos para buscar . El valor de n es 10. Estos valores ahora se pueden sustituir nuevamente en la ecuación.
dar
que se evalúa como ρ = −29/165 = −0.175757575... con un valor p = 0.627188 (usando la distribución t ).
Que el valor sea cercano a cero muestra que la correlación entre el coeficiente intelectual y las horas dedicadas a ver televisión es muy baja, aunque el valor negativo sugiere que cuanto más tiempo se pasa viendo televisión menor es el coeficiente intelectual. En caso de empates en los valores originales, no se deberá utilizar esta fórmula; en cambio, el coeficiente de correlación de Pearson debe calcularse en los rangos (donde a los empates se les asignan rangos, como se describió anteriormente).
Los intervalos de confianza para ρ de Spearman se pueden obtener fácilmente utilizando el enfoque de probabilidad euclidiana Jackknife en de Carvalho y Marques (2012). [11] El intervalo de confianza con nivel se basa en el teorema de Wilks dado en el último artículo y viene dado por
donde es el cuantil de una distribución chi-cuadrado con un grado de libertad y son pseudovalores jackknife. Este enfoque se implementa en el paquete R SpearmanCI.
Un enfoque para probar si un valor observado de ρ es significativamente diferente de cero ( r siempre mantendrá −1 ≤ r ≤ 1 ) es calcular la probabilidad de que sea mayor o igual que el r observado , dada la hipótesis nula , mediante el uso de una prueba de permutación . Una ventaja de este enfoque es que tiene en cuenta automáticamente el número de valores de datos vinculados en la muestra y la forma en que se tratan al calcular la correlación de rango.
Otro enfoque es paralelo al uso de la transformación de Fisher en el caso del coeficiente de correlación momento-producto de Pearson. Es decir, los intervalos de confianza y las pruebas de hipótesis relacionadas con el valor poblacional ρ se pueden realizar utilizando la transformación de Fisher:
Si F ( r ) es la transformación de Fisher de r , el coeficiente de correlación de rango de Spearman de la muestra, y n es el tamaño de la muestra, entonces
es una puntuación z para r , que sigue aproximadamente una distribución normal estándar bajo la hipótesis nula de independencia estadística ( ρ = 0 ). [12] [13]
También se puede probar la significancia utilizando
que se distribuye aproximadamente como la distribución t de Student con n − 2 grados de libertad bajo la hipótesis nula . [14] Una justificación de este resultado se basa en un argumento de permutación. [15]
Una generalización del coeficiente de Spearman es útil en la situación en la que hay tres o más condiciones, se observa un número de sujetos en cada una de ellas y se predice que las observaciones tendrán un orden particular. Por ejemplo, a varios sujetos se les podrían dar tres intentos de realizar la misma tarea, y se predice que el rendimiento mejorará de un intento a otro. EB Page [16] desarrolló una prueba de la importancia de la tendencia entre condiciones en esta situación y generalmente se la conoce como prueba de tendencia de Page para alternativas ordenadas.
El análisis de correspondencia clásico es un método estadístico que otorga una puntuación a cada valor de dos variables nominales. De esta forma se maximiza el coeficiente de correlación de Pearson entre ellos.
Existe un equivalente de este método, llamado análisis de correspondencia de calificaciones, que maximiza la ρ de Spearman o la τ de Kendall . [17]
Existen dos enfoques para aproximar el coeficiente de correlación de rango de Spearman a partir de datos de transmisión. [18] [19] El primer enfoque [18] implica engrosar la distribución conjunta de . Para valores continuos : se seleccionan puntos de corte para y respectivamente, discretizando estas variables aleatorias. Los puntos de corte predeterminados se agregan en y . Luego se construye una matriz de conteo de tamaño , denotada por , donde se almacena el número de observaciones que caen en la celda bidimensional indexada por . Para datos en tiempo real, cuando llega una nueva observación, se incrementa el elemento apropiado. Luego se puede calcular la correlación de rango de Spearman, basándose en la matriz de conteo , utilizando operaciones de álgebra lineal (Algoritmo 2 [18] ). Tenga en cuenta que para variables aleatorias discretas no es necesario ningún procedimiento de discretización. Este método es aplicable a datos de transmisión estacionaria, así como a grandes conjuntos de datos. Para datos de transmisión no estacionarios, donde el coeficiente de correlación de rango de Spearman puede cambiar con el tiempo, se puede aplicar el mismo procedimiento, pero a una ventana móvil de observaciones. Cuando se utiliza una ventana móvil, los requisitos de memoria crecen linealmente con el tamaño de ventana elegido.
El segundo enfoque para aproximar el coeficiente de correlación de rangos de Spearman a partir de datos continuos implica el uso de estimadores basados en series de Hermite. [19] Estos estimadores, basados en polinomios de Hermite , permiten la estimación secuencial de la función de densidad de probabilidad y la función de distribución acumulativa en casos univariados y bivariados. Los estimadores de densidad de series bivariadas de Hermite y los estimadores de función de distribución acumulativa basados en series de Hermite univariadas se conectan a una versión de muestra grande del estimador de coeficiente de correlación de rangos de Spearman, para obtener un estimador de correlación de Spearman secuencial. Este estimador está expresado en términos de operaciones de álgebra lineal para eficiencia computacional (ecuación (8) y algoritmo 1 y 2 [19] ). Estos algoritmos sólo son aplicables a datos de variables aleatorias continuas, pero tienen ciertas ventajas sobre el enfoque de matriz de conteo en este entorno. La primera ventaja es una mayor precisión cuando se aplica a un gran número de observaciones. La segunda ventaja es que el coeficiente de correlación de rango de Spearman se puede calcular en flujos no estacionarios sin depender de una ventana móvil. En cambio, el estimador basado en series de Hermite utiliza un esquema de ponderación exponencial para rastrear la correlación de rango de Spearman que varía en el tiempo a partir de datos de transmisión, que tiene requisitos de memoria constantes con respecto al tamaño de ventana móvil "efectiva". Existe una implementación de software de estos algoritmos basados en la serie Hermite [20] y se analiza en Implementaciones de software.
cor(x, y, method = "spearman")
implementa la prueba cor.test(x, y, método = "spearman") en su paquete "stats" (también funcionará. El paquete SpearmanCI calcula intervalos de confianza. El paquete hermiter [20] calcula rápidamente estimaciones por lotes de la correlación de Spearman junto con estimaciones secuenciales (es decir, estimaciones que se actualizan en línea/incrementalmente a medida que se incorporan nuevas observaciones). spearman varlist
[r,p] = corr(x,y,'Type','Spearman')
donde r
es el coeficiente de correlación de rango de Spearman, p
es el valor p y x
son y
vectores. [21]sci.py.stats
módulo, así como con el DataFrame.corr(method='spearman')
método de la biblioteca Pandas y la corr(x, y, method='spearman')
función del paquete estadístico pingouin.{{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link)