Los datos ordinales son un tipo de datos estadísticos categóricos donde las variables tienen categorías naturales y ordenadas y las distancias entre las categorías no se conocen. [1] : 2 Estos datos existen en una escala ordinal , uno de los cuatro niveles de medición descritos por SS Stevens en 1946. La escala ordinal se distingue de la escala nominal por tener una clasificación . [2] También se diferencia de la escala de intervalo y la escala de razón por no tener anchos de categoría que representen incrementos iguales del atributo subyacente. [3]
Un ejemplo conocido de datos ordinales es la escala Likert . Un ejemplo de una escala Likert es: [4] : 685
Los ejemplos de datos ordinales se encuentran a menudo en los cuestionarios: por ejemplo, la pregunta de la encuesta "¿Su salud general es mala, razonable, buena o excelente?" puede tener esas respuestas codificadas respectivamente como 1, 2, 3 y 4. A veces, los datos en una escala de intervalo o escala de razón se agrupan en una escala ordinal: por ejemplo, las personas cuyos ingresos se conocen pueden agruparse en las categorías de ingresos $0–$19,999, $20,000–$39,999, $40,000–$59,999, ..., que luego pueden codificarse como 1, 2, 3, 4, .... Otros ejemplos de datos ordinales incluyen el estatus socioeconómico, los rangos militares y las calificaciones con letras para los cursos. [5]
El análisis de datos ordinales requiere un conjunto de análisis diferente al de otras variables cualitativas. Estos métodos incorporan el orden natural de las variables para evitar la pérdida de potencia. [1] : 88 No se recomienda calcular la media de una muestra de datos ordinales; otras medidas de tendencia central, como la mediana o la moda, suelen ser más apropiadas. [6]
Stevens (1946) argumentó que, debido a que el supuesto de distancia igual entre categorías no se cumple para datos ordinales, el uso de medias y desviaciones estándar para la descripción de distribuciones ordinales y de estadísticas inferenciales basadas en medias y desviaciones estándar no era apropiado. En su lugar, se deberían utilizar medidas posicionales como la mediana y los percentiles, además de estadísticas descriptivas apropiadas para datos nominales (número de casos, moda, correlación de contingencia). [3] : 678 Se han propuesto métodos no paramétricos como los procedimientos más apropiados para las estadísticas inferenciales que involucran datos ordinales (por ejemplo, W de Kendall , coeficiente de correlación de rangos de Spearman , etc.), especialmente aquellos desarrollados para el análisis de mediciones clasificadas. [5] : 25–28 Sin embargo, el uso de estadísticas paramétricas para datos ordinales puede ser permisible con ciertas salvedades para aprovechar la mayor variedad de procedimientos estadísticos disponibles. [7] [8] [4] : 90
En lugar de medias y desviaciones estándar, las estadísticas univariadas apropiadas para datos ordinales incluyen la mediana, [9] : 59–61 otros percentiles (como cuartiles y decilos), [9] : 71 y la desviación del cuartil. [9] : 77 Las pruebas de una muestra para datos ordinales incluyen la prueba de una muestra de Kolmogorov-Smirnov , [5] : 51–55 la prueba de rachas de una muestra , [5] : 58–64 y la prueba del punto de cambio. [5] : 64–71
En lugar de probar las diferencias en las medias con pruebas t , las diferencias en las distribuciones de datos ordinales de dos muestras independientes se pueden probar con las pruebas de Mann-Whitney , [9] : 259–264 , [ 9] : 253–259 , Smirnov , [9] : 266–269 y de rangos con signo [9] : 269–273 . Las pruebas para dos muestras relacionadas o coincidentes incluyen la prueba de los signos [5] : 80–87 y la prueba de rangos con signo de Wilcoxon . [5] : 87–95 El análisis de varianza con rangos [9] : 367–369 y la prueba de Jonckheere para alternativas ordenadas [5] : 216–222 se pueden realizar con datos ordinales en lugar de ANOVA de muestras independientes . Las pruebas para más de dos muestras relacionadas incluyen el análisis de varianza de dos vías de Friedman por rangos [5] : 174–183 y la prueba de Page para alternativas ordenadas . [5] : 184–188 Las medidas de correlación apropiadas para dos variables de escala ordinal incluyen la tau de Kendall , [9] : 436–439 gamma , [9] : 442–443 r s , [9] : 434–436 y d yx /d xy . [9] : 443
Los datos ordinales pueden considerarse como una variable cuantitativa. En la regresión logística , la ecuación
es el modelo y c asume los niveles asignados de la escala categórica. [1] : 189 En el análisis de regresión , los resultados ( variables dependientes ) que son variables ordinales se pueden predecir utilizando una variante de regresión ordinal , como logit ordenado o probit ordenado .
En el análisis de regresión/correlación múltiple, los datos ordinales se pueden acomodar utilizando polinomios de potencia y mediante la normalización de puntuaciones y rangos. [10]
Las tendencias lineales también se utilizan para encontrar asociaciones entre datos ordinales y otras variables categóricas, normalmente en tablas de contingencia . Se encuentra una correlación r entre las variables donde r se encuentra entre -1 y 1. Para probar la tendencia, se utiliza una estadística de prueba:
se utiliza donde n es el tamaño de la muestra. [1] : 87
R se puede encontrar si se consideran los puntajes de las filas y los puntajes de las columnas. Sea la media de los puntajes de las filas mientras que . Entonces es la probabilidad marginal de las filas y es la probabilidad marginal de las columnas. R se calcula mediante:
También se han desarrollado métodos de clasificación para datos ordinales. Los datos se dividen en diferentes categorías de modo que cada observación sea similar a las demás. Se mide y minimiza la dispersión en cada grupo para maximizar los resultados de la clasificación. La función de dispersión se utiliza en la teoría de la información . [11]
Existen varios modelos diferentes que se pueden utilizar para describir la estructura de datos ordinales. [12] A continuación se describen cuatro clases principales de modelos, cada una definida para una variable aleatoria , con niveles indexados por .
Tenga en cuenta que en las definiciones de modelos a continuación, los valores de y no serán los mismos para todos los modelos para el mismo conjunto de datos, pero la notación se utiliza para comparar la estructura de los diferentes modelos.
El modelo más comúnmente utilizado para datos ordinales es el modelo de probabilidades proporcionales, definido como donde los parámetros describen la distribución base de los datos ordinales, son las covariables y son los coeficientes que describen los efectos de las covariables.
Este modelo se puede generalizar definiéndolo utilizando en lugar de , lo que haría que el modelo fuera adecuado tanto para datos nominales (en los que las categorías no tienen un orden natural) como para datos ordinales. Sin embargo, esta generalización puede dificultar mucho el ajuste del modelo a los datos.
El modelo de categoría de línea base se define mediante
Este modelo no impone un ordenamiento de las categorías y, por lo tanto, puede aplicarse tanto a datos nominales como a datos ordinales.
El modelo de estereotipo ordenado se define por donde los parámetros de puntuación están restringidos de tal manera que .
Este es un modelo más parsimonioso y más especializado que el modelo logit de categoría base: puede considerarse similar a .
El modelo de estereotipo no ordenado tiene la misma forma que el modelo de estereotipo ordenado, pero sin el orden impuesto en . Este modelo se puede aplicar a datos nominales.
Tenga en cuenta que las puntuaciones ajustadas, , indican lo fácil que es distinguir entre los diferentes niveles de . Si entonces eso indica que el conjunto actual de datos para las covariables no proporciona mucha información para distinguir entre los niveles y , pero eso no implica necesariamente que los valores reales y estén muy separados. Y si los valores de las covariables cambian, entonces para esos nuevos datos las puntuaciones ajustadas y podrían estar muy separadas.
El modelo de categorías adyacentes se define por aunque la forma más común, a la que Agresti (2010) [12] denomina la "forma de probabilidades proporcionales", se define por
Este modelo sólo se puede aplicar a datos ordinales, ya que modelar las probabilidades de cambios de una categoría a la siguiente implica que existe un ordenamiento de esas categorías.
El modelo logit de categorías adyacentes puede considerarse como un caso especial del modelo logit de categorías base, donde . El modelo logit de categorías adyacentes también puede considerarse como un caso especial del modelo de estereotipo ordenado, donde , es decir, las distancias entre los se definen de antemano, en lugar de estimarse en función de los datos.
El modelo de probabilidades proporcionales tiene una estructura muy diferente a los otros tres modelos, y también un significado subyacente diferente. Nótese que el tamaño de la categoría de referencia en el modelo de probabilidades proporcionales varía con , ya que se compara con , mientras que en los otros modelos el tamaño de la categoría de referencia permanece fijo, ya que se compara con o .
Existen variantes de todos los modelos que utilizan diferentes funciones de enlace, como el enlace probit o el enlace log-log complementario.
Las diferencias en los datos ordinales se pueden probar utilizando pruebas de rango .
Los datos ordinales se pueden visualizar de varias formas diferentes. Las visualizaciones más comunes son el gráfico de barras o el gráfico circular . Las tablas también pueden ser útiles para mostrar datos ordinales y frecuencias. Los gráficos de mosaico se pueden utilizar para mostrar la relación entre una variable ordinal y una variable nominal u ordinal. [13] Un gráfico de protuberancias (un gráfico de líneas que muestra la clasificación relativa de los elementos de un punto temporal al siguiente) también es adecuado para los datos ordinales. [14]
La gradación de color o escala de grises se puede utilizar para representar la naturaleza ordenada de los datos. Una escala unidireccional, como los rangos de ingresos, se puede representar con un gráfico de barras donde el aumento (o la disminución) de la saturación o la claridad de un solo color indica un ingreso mayor (o menor). La distribución ordinal de una variable medida en una escala bidireccional, como una escala Likert, también se puede ilustrar con color en un gráfico de barras apiladas. Se puede utilizar un color neutro (blanco o gris) para el punto medio (cero o neutro), con colores contrastantes utilizados en las direcciones opuestas desde el punto medio, donde el aumento de la saturación o la oscuridad de los colores podría indicar categorías a una distancia creciente desde el punto medio. [15] Los mapas coropléticos también utilizan sombreado de color o escala de grises para mostrar datos ordinales. [16]
El uso de datos ordinales se puede encontrar en la mayoría de las áreas de investigación donde se generan datos categóricos. Los entornos donde a menudo se recopilan datos ordinales incluyen las ciencias sociales y del comportamiento y los entornos gubernamentales y comerciales donde se recopilan mediciones de personas mediante observación, pruebas o cuestionarios . Algunos contextos comunes para la recopilación de datos ordinales incluyen la investigación de encuestas ; [17] [18] y la inteligencia , la aptitud , las pruebas de personalidad y la toma de decisiones . [2] [4] : 89–90
Se ha recomendado el cálculo del "tamaño del efecto" (Delta de Cliff d ) utilizando datos ordinales como medida de dominio estadístico. [19]
{{cite book}}
: CS1 maint: location (link)