stringtranslate.com

Clasificación (estadísticas)

En estadística , la clasificación es la transformación de datos en la que los valores numéricos u ordinales se reemplazan por su clasificación cuando se ordenan los datos. Por ejemplo, si se observan los datos numéricos 3.4, 5.1, 2.6, 7.3, las clasificaciones de estos elementos de datos serían 2, 3, 1 y 4 respectivamente. Por ejemplo, los datos ordinales caliente, frío, cálido se reemplazarían por 3, 1, 2. En estos ejemplos, las clasificaciones se asignan a los valores en orden ascendente. (En algunos otros casos, se utilizan rangos descendentes). Los rangos están relacionados con la lista indexada de estadísticas de orden , que consta del conjunto de datos original reorganizado en orden ascendente.

Usar para pruebas

Algunos tipos de pruebas estadísticas emplean cálculos basados ​​en rangos. Ejemplos incluyen:

La distribución de valores en orden decreciente de rango suele ser de interés cuando los valores varían mucho en escala; esta es la distribución de rango-tamaño (o distribución de rango-frecuencia), por ejemplo, para tamaños de ciudades o frecuencias de palabras. Estos suelen seguir una ley de potencia .

Algunas clasificaciones pueden tener valores no enteros para valores de datos vinculados. Por ejemplo, cuando hay un número par de copias del mismo valor de datos, el rango estadístico fraccionario de los datos empatados termina en ½. El rango percentil es otro tipo de ranking estadístico.

Cálculo

Microsoft Excel proporciona dos funciones de clasificación, la función Rank.EQ que asigna clasificaciones de competencia ("1224") y la función Rank.AVG que asigna clasificaciones fraccionarias ("1 2,5 2,5 4"). Las funciones tienen el argumento orden , [1] que de forma predeterminada está configurado en descendente , es decir, el número más grande tendrá un rango 1. Esto generalmente es poco común en estadísticas donde la clasificación suele estar en orden ascendente, donde el número más pequeño tiene un rango 1.

Comparación de clasificaciones

Se puede utilizar una correlación de rango para comparar dos clasificaciones para el mismo conjunto de objetos. Por ejemplo, el coeficiente de correlación de rangos de Spearman es útil para medir la dependencia estadística entre las clasificaciones de los atletas en dos torneos. Y el coeficiente de correlación de rangos de Kendall es otro enfoque. Alternativamente, los enfoques basados ​​en intersecciones/superposiciones ofrecen flexibilidad adicional. Un ejemplo es el enfoque de "superposición hipergeométrica rango-rango", [2] que está diseñado para comparar la clasificación de los genes que están en la "parte superior" de dos listas ordenadas de genes expresados ​​diferencialmente. Un enfoque similar es adoptado por el "Rank Biased Overlap (RBO)", [3] que también implementa una probabilidad ajustable, p, para personalizar el peso asignado a una profundidad de clasificación deseada. Estos enfoques tienen las ventajas de abordar conjuntos disjuntos , conjuntos de diferentes tamaños y ponderación superior (teniendo en cuenta la posición de clasificación absoluta, que puede ignorarse en los enfoques estándar de correlación de rangos no ponderados).

Definición

Sea un conjunto de variables aleatorias. Al ordenarlos, hemos definido sus estadísticas de orden [4]

Si todos los valores son únicos, el rango del número de variable es la solución única de la ecuación . En presencia de empates, podemos utilizar un ranking medio (correspondiente al "ranking fraccional" mencionado anteriormente), definido como el promedio de todos los índices tales como , o el ranking superior (correspondiente al "ranking de competencia modificado" ) definido por .

Referencias

  1. ^ "Ayuda de Excel RANK.AVG". Apoyo administrativo . Microsoft . Consultado el 21 de enero de 2021 .
  2. ^ Plaisier, Seema B.; Taschereau, Richard; Wong, Justin A.; Graeber, Thomas G. (septiembre de 2010). "Superposición hipergeométrica rango-rango: identificación de superposición estadísticamente significativa entre firmas de expresión genética". Investigación de ácidos nucleicos . 38 (17): e169. doi : 10.1093/nar/gkq636. PMC 2943622 . PMID  20660011. 
  3. ^ Webber, William; Moffat, Alistair; Zobel, Justin (noviembre de 2010). "Una medida de similitud para clasificaciones indefinidas". Transacciones ACM sobre sistemas de información . 28 (4): 1–38. doi :10.1145/1852102.1852106. S2CID  16050561.
  4. ^ Vaart, AW van der (1998). Estadísticas asintóticas . Cambridge, Reino Unido: Cambridge University Press. ISBN 9780521784504.