En estadística , la clasificación es la transformación de datos en la que los valores numéricos u ordinales se reemplazan por su rango cuando se ordenan los datos.
Por ejemplo, si se observan los datos numéricos 3.4, 5.1, 2.6, 7.3, los rangos de estos elementos de datos serían 2, 3, 1 y 4 respectivamente.
Como otro ejemplo, los datos ordinales caliente, frío, cálido se reemplazarían por 3, 1, 2. En estos ejemplos, los rangos se asignan a los valores en orden ascendente, aunque también se pueden usar rangos descendentes.
Los rangos están relacionados con la lista indexada de estadísticas de orden , que consiste en el conjunto de datos original reorganizado en orden ascendente.
Algunos tipos de pruebas estadísticas emplean cálculos basados en rangos. Algunos ejemplos son:
La distribución de valores en orden decreciente de rango suele ser de interés cuando los valores varían ampliamente en escala; se trata de la distribución de rango-tamaño (o distribución de rango-frecuencia), por ejemplo, para tamaños de ciudades o frecuencias de palabras. Estas suelen seguir una ley de potencia .
Algunas clasificaciones pueden tener valores no enteros para valores de datos empatados. Por ejemplo, cuando hay un número par de copias del mismo valor de datos, la clasificación estadística fraccionaria de los datos empatados termina en ½. La clasificación percentil es otro tipo de clasificación estadística.
Microsoft Excel ofrece dos funciones de clasificación: la función Rank.EQ , que asigna rangos de competencia ("1224"), y la función Rank.AVG , que asigna rangos fraccionarios ("1 2,5 2,5 4"). Las funciones tienen el argumento de orden , [1], que por defecto está configurado en descendente , es decir, el número más grande tendrá un rango de 1. Esto es poco común en las estadísticas, donde la clasificación suele ser en orden ascendente, donde el número más pequeño tiene un rango de 1.
Una correlación de rangos se puede utilizar para comparar dos clasificaciones para el mismo conjunto de objetos. Por ejemplo, el coeficiente de correlación de rangos de Spearman es útil para medir la dependencia estadística entre las clasificaciones de los atletas en dos torneos. Y el coeficiente de correlación de rangos de Kendall es otro enfoque. Alternativamente, los enfoques basados en intersección/superposición ofrecen flexibilidad adicional. Un ejemplo es el enfoque de "superposición hipergeométrica de rango-rango", [2] que está diseñado para comparar la clasificación de los genes que están en la "cima" de dos listas ordenadas de genes expresados diferencialmente. Un enfoque similar es adoptado por el "Rank Biased Overlap (RBO)", [3] que también implementa una probabilidad ajustable, p, para personalizar el peso asignado a una profundidad deseada de clasificación. Estos enfoques tienen las ventajas de abordar conjuntos disjuntos , conjuntos de diferentes tamaños y ponderación superior (teniendo en cuenta la posición de clasificación absoluta, que puede ignorarse en los enfoques de correlación de rangos no ponderados estándar).
Sea un conjunto de variables aleatorias. Al ordenarlas, hemos definido sus estadísticas de orden [4]
Si todos los valores son únicos, el rango de la variable número es la única solución de la ecuación . En presencia de empates, podemos utilizar un rango medio (que corresponde al "rango fraccionario" mencionado anteriormente), definido como el promedio de todos los índices tales que , o el rango superior (que corresponde al "rango de competencia modificado" ) definido por .