Clasificación (estadísticas)

En estadística , la clasificación es la transformación de datos en la que los valores numéricos u ordinales se reemplazan por su rango cuando se ordenan los datos.

Por ejemplo, si se observan los datos numéricos 3.4, 5.1, 2.6, 7.3, los rangos de estos elementos de datos serían 2, 3, 1 y 4 respectivamente.

Como otro ejemplo, los datos ordinales caliente, frío, cálido se reemplazarían por 3, 1, 2. En estos ejemplos, los rangos se asignan a los valores en orden ascendente, aunque también se pueden usar rangos descendentes.

Los rangos están relacionados con la lista indexada de estadísticas de orden , que consiste en el conjunto de datos original reorganizado en orden ascendente.

Úselo para probar

Algunos tipos de pruebas estadísticas emplean cálculos basados en rangos. Algunos ejemplos son:

La distribución de valores en orden decreciente de rango suele ser de interés cuando los valores varían ampliamente en escala; se trata de la distribución de rango-tamaño (o distribución de rango-frecuencia), por ejemplo, para tamaños de ciudades o frecuencias de palabras. Estas suelen seguir una ley de potencia .

Algunas clasificaciones pueden tener valores no enteros para valores de datos empatados. Por ejemplo, cuando hay un número par de copias del mismo valor de datos, la clasificación estadística fraccionaria de los datos empatados termina en ½. La clasificación percentil es otro tipo de clasificación estadística.

Cálculo

Microsoft Excel ofrece dos funciones de clasificación: la función Rank.EQ , que asigna rangos de competencia ("1224"), y la función Rank.AVG , que asigna rangos fraccionarios ("1 2,5 2,5 4"). Las funciones tienen el argumento de orden , ^[1], que por defecto está configurado en descendente , es decir, el número más grande tendrá un rango de 1. Esto es poco común en las estadísticas, donde la clasificación suele ser en orden ascendente, donde el número más pequeño tiene un rango de 1.

Comparación de clasificaciones

Una correlación de rangos se puede utilizar para comparar dos clasificaciones para el mismo conjunto de objetos. Por ejemplo, el coeficiente de correlación de rangos de Spearman es útil para medir la dependencia estadística entre las clasificaciones de los atletas en dos torneos. Y el coeficiente de correlación de rangos de Kendall es otro enfoque. Alternativamente, los enfoques basados en intersección/superposición ofrecen flexibilidad adicional. Un ejemplo es el enfoque de "superposición hipergeométrica de rango-rango", ^[2] que está diseñado para comparar la clasificación de los genes que están en la "cima" de dos listas ordenadas de genes expresados diferencialmente. Un enfoque similar es adoptado por el "Rank Biased Overlap (RBO)", ^[3] que también implementa una probabilidad ajustable, p, para personalizar el peso asignado a una profundidad deseada de clasificación. Estos enfoques tienen las ventajas de abordar conjuntos disjuntos , conjuntos de diferentes tamaños y ponderación superior (teniendo en cuenta la posición de clasificación absoluta, que puede ignorarse en los enfoques de correlación de rangos no ponderados estándar).

Definición

Sea un conjunto de variables aleatorias. Al ordenarlas, hemos definido sus estadísticas de orden ^[4] $X_{1},..X_{n}$

X_{n,(1)}\leq ...\leq X_{n,(n)}

Si todos los valores son únicos, el rango de la variable número es la única solución de la ecuación . En presencia de empates, podemos utilizar un rango medio (que corresponde al "rango fraccionario" mencionado anteriormente), definido como el promedio de todos los índices tales que , o el rango superior (que corresponde al "rango de competencia modificado" ) definido por . ${\estilo de visualización i}$ $R_{n,i}$ $X_{i}=X_{N,(R_{n,i})}$ ${\estilo de visualización i}$ $X_{j}=X_{N,(R_{n,j})}$ $\suma _{j=1}^{n}1\{X_{j}\leq X_{i}\}$

Referencias

^ "Ayuda de RANK.AVG en Excel". Soporte de Office . Microsoft . Consultado el 21 de enero de 2021 .
^ Plaisier, Seema B.; Taschereau, Richard; Wong, Justin A.; Graeber, Thomas G. (septiembre de 2010). "Superposición hipergeométrica de rango-rango: identificación de superposición estadísticamente significativa entre firmas de expresión génica". Nucleic Acids Research . 38 (17): e169. doi :10.1093/nar/gkq636. PMC 2943622 . PMID 20660011.
^ Webber, William; Moffat, Alistair; Zobel, Justin (noviembre de 2010). "Una medida de similitud para clasificaciones indefinidas". ACM Transactions on Information Systems . 28 (4): 1–38. doi :10.1145/1852102.1852106. S2CID 16050561.
^ Vaart, AW van der (1998). Estadística asintótica . Cambridge, Reino Unido: Cambridge University Press. ISBN 9780521784504.