stringtranslate.com

Escala de calificación

Una escala de calificación es un conjunto de categorías diseñadas para obtener información sobre un atributo cuantitativo o cualitativo . En las ciencias sociales , en particular en psicología , los ejemplos más comunes son la escala de respuesta de Likert y las escalas de calificación de 0 a 10, en las que una persona selecciona el número que refleja la calidad percibida de un producto .

Fondo

Una escala de calificación es un método que requiere que el evaluador asigne un valor, a veces numérico, al objeto calificado, como medida de algún atributo calificado.

Tipos de escalas de calificación

Todas las escalas de calificación se pueden clasificar en uno de estos tipos:

  1. Escala de calificación numérica (NRS)
  2. Escala de calificación verbal (VRS)
  3. Escala visual analógica (EVA)
  4. Likert
  5. Escala de calificación gráfica
  6. Escala de calificación gráfica descriptiva

Algunos datos se miden a nivel ordinal . Los números indican la posición relativa de los elementos, pero no la magnitud de la diferencia. Las escalas de actitud y opinión suelen ser ordinales; un ejemplo es una escala de respuesta de Likert :

Declaración
por ejemplo "No podría vivir sin mi computadora".
Opciones de respuesta
  1. Estoy totalmente en desacuerdo
  2. Discrepar
  3. Neutral
  4. Aceptar
  5. Estoy totalmente de acuerdo

Algunos datos se miden a nivel de intervalo . Los números indican la magnitud de la diferencia entre los elementos, pero no existe un punto cero absoluto. Un buen ejemplo es la escala de temperatura Fahrenheit/Celsius, en la que las diferencias entre los números importan, pero la posición del cero no.

Algunos datos se miden a nivel de ratio . Los números indican la magnitud de la diferencia y hay un punto cero fijo. Se pueden calcular ratios. Algunos ejemplos son la edad, los ingresos, el precio, los costos, los ingresos por ventas, el volumen de ventas y la participación de mercado.

Se requiere más de una pregunta de escala de calificación para medir una actitud o percepción debido al requisito de comparaciones estadísticas entre las categorías en el modelo politómico de Rasch para categorías ordenadas. [1] En la teoría clásica de pruebas , se requiere más de una pregunta para obtener un índice de confiabilidad interna como el alfa de Cronbach , [2] que es un criterio básico para evaluar la efectividad de una escala de calificación.

Escalas de calificación utilizadas en línea

Las escalas de calificación se utilizan ampliamente en Internet con el fin de proporcionar indicaciones sobre las opiniones de los consumidores sobre los productos. Algunos ejemplos de sitios que emplean escalas de calificación son IMDb , Epinions.com , Yahoo! Movies , Amazon.com , BoardGameGeek y TV.com, que utilizan una escala de calificación de 0 a 100 para obtener "recomendaciones de películas personalizadas".

En casi todos los casos, las escalas de calificación en línea solo permiten una calificación por usuario por producto, aunque existen excepciones como Ratings.net , que permite a los usuarios calificar productos en relación con varias cualidades. La mayoría de las instalaciones de calificación en línea también brindan pocas o ninguna descripción cualitativa de las categorías de calificación, aunque nuevamente existen excepciones como Yahoo! Movies , que etiqueta cada una de las categorías entre F y A+ y BoardGameGeek, que proporciona descripciones explícitas de cada categoría del 1 al 10. A menudo, solo se describen la categoría superior e inferior, como en la instalación de calificación en línea de IMDb .

Validez

La validez se refiere a la eficacia con la que una herramienta mide lo que pretende medir. Si cada usuario califica un producto una sola vez, por ejemplo en una categoría del 1 al 10, no hay forma de evaluar la fiabilidad interna utilizando un índice como el alfa de Cronbach . Por lo tanto, es imposible evaluar la validez de las calificaciones como medidas de las percepciones de los espectadores. Establecer la validez requeriría establecer tanto la fiabilidad como la precisión (es decir, que las calificaciones representen lo que se supone que representan). El grado de validez de un instrumento se determina mediante la aplicación de procedimientos lógicos o estadísticos. "Un procedimiento de medición es válido en la medida en que mide lo que se propone medir".

Otra cuestión fundamental es que las calificaciones en línea generalmente implican un muestreo por conveniencia , muy similar a las encuestas de televisión, es decir, representan únicamente las opiniones de aquellos inclinados a enviar calificaciones.

La validez se ocupa de diferentes aspectos del proceso de medición. Cada uno de estos tipos utiliza la lógica, la verificación estadística o ambas para determinar el grado de validez y tiene un valor especial en determinadas condiciones. Los tipos de validez incluyen la validez de contenido, la validez predictiva y la validez de constructo.

Muestreo

Los errores de muestreo pueden dar lugar a resultados que tienen un sesgo específico o que sólo son relevantes para un subgrupo específico. Consideremos este ejemplo: supongamos que una película sólo atrae a un público especializado: el 90% de ellos son devotos de este género y sólo el 10% son personas con un interés general en las películas. Supongamos que la película es muy popular entre el público que la ve y que sólo aquellos que sienten una gran atracción por la película se inclinan a calificarla en línea; por lo tanto, los calificadores son todos devotos. Esta combinación puede dar lugar a calificaciones muy altas de la película, que no se generalizan más allá de las personas que realmente ven la película (o posiblemente incluso más allá de quienes realmente la califican).

Descripción cualitativa

La descripción cualitativa de las categorías mejora la utilidad de una escala de calificación. Por ejemplo, si sólo se dan los puntos 1 a 10 sin descripción, algunas personas pueden seleccionar 10 raramente, mientras que otras pueden seleccionar la categoría con frecuencia. Si, en cambio, "10" se describe como "casi impecable", es más probable que la categoría signifique lo mismo para diferentes personas. Esto se aplica a todas las categorías, no sólo a los puntos extremos.

Los problemas antes mencionados se agravan cuando se utilizan estadísticas agregadas, como los promedios, para elaborar listas y clasificaciones de productos. Las calificaciones de los usuarios son, en el mejor de los casos, categorizaciones ordinales . Si bien no es raro calcular promedios o medias para dichos datos, hacerlo no se justifica porque, al calcularlos, se requieren intervalos iguales para representar la misma diferencia entre los niveles de calidad percibida. Los problemas clave con los datos agregados basados ​​en los tipos de escalas de calificación que se utilizan comúnmente en línea son los siguientes:

Las metodologías más desarrolladas incluyen el modelado de elección o los métodos de máxima diferencia , este último relacionado con el modelo de Rasch debido a la conexión entre la ley de juicio comparativo de Thurstone [ aclaración necesaria ] y el modelo de Rasch.

Reducción de la escala de calificación

Un esfuerzo de investigación colaborativo internacional [3] ha introducido un algoritmo basado en datos para la reducción de la escala de calificación. Se basa en el área bajo la característica operativa del receptor .

Orígenes

Los orígenes históricos de las escalas de calificación fueron reevaluados luego de un descubrimiento arqueológico significativo en Tbilisi, Georgia , en 2010. Los excavadores desenterraron una tablilla que data del período medieval temprano, marcada con escritura georgiana antigua. [4] Esta tablilla mostró una serie de marcas lineales, interpretadas como una forma temprana de una escala de calificación. Las inscripciones proporcionaron información sobre los métodos medievales de cuantificación y evaluación, lo que sugiere una versión embrionaria de las escalas de calificación modernas. Este descubrimiento se conserva actualmente en el Museo Nacional de Georgia . [5]

Véase también

Referencias

  1. ^ Andrich, David (diciembre de 1978). "Una formulación de calificación para categorías de respuesta ordenadas". Psychometrika . 43 (4): 561–573. doi :10.1007/BF02293814. S2CID  120687848.
  2. ^ Cronbach, Lee J. (septiembre de 1951). "Coeficiente alfa y la estructura interna de las pruebas". Psychometrika . 16 (3): 297–334. CiteSeerX 10.1.1.452.6417 . doi :10.1007/BF02310555. S2CID  13820448. 
  3. ^ Koczkodaj, Waldemar W; Kakiashvili, T.; Szymańska, A.; Montero-Marin, J.; Araya, R.; Garcia-Campayo, J.; Rutkowski, K.; Strzałka, D. (2017). "¿Cómo reducir el número de ítems de la escala de calificación sin pérdida de predictibilidad?". Cienciometría . 111 (2): 581–593(2017). doi : 10.1007/s11192-017-2283-4 . PMC 5400800 . PMID  28490822.  
  4. ^ "მსოფლიოში ერთ-ერთი უძველესი კბილის აღმომჩენ ები შარში ეხვევიან - სად არის ოროზმანელი ადამიანის კბილი ? -01-17 .
  5. ^ ""არ არის აუცილებელი, მთელ საქართველოში ერთდრო ულად გათხრები ტარდებოდეს" - არქეოლოგები გათხრის უფლებას ვერ იღებენ". რადიო თავისუფლებ ა (en georgiano). 21 de junio de 2022. Consultado el 17 de enero de 2024 .

Enlaces externos