Escala de valoración

Una escala de calificación es un conjunto de categorías diseñadas para obtener información sobre un atributo cuantitativo o cualitativo . En las ciencias sociales , particularmente en psicología , ejemplos comunes son la escala de respuesta Likert y las escalas de calificación de 0 a 10, donde una persona selecciona el número que refleja la calidad percibida de un producto .

Fondo

Una escala de calificación es un método que requiere que el evaluador asigne un valor, a veces numérico, al objeto calificado, como medida de algún atributo calificado.

Tipos de escalas de calificación

Todas las escalas de calificación se pueden clasificar en uno de estos tipos:

Escala de calificación numérica (NRS)
Escala de calificación verbal (VRS)
Escala Visual Analógica (EVA)
Likert
Escala de calificación gráfica
Escala de calificación gráfica descriptiva

Algunos datos se miden a nivel ordinal . Los números indican la posición relativa de los elementos, pero no la magnitud de la diferencia. Las escalas de actitud y opinión suelen ser ordinales; un ejemplo es una escala de respuesta Likert :

Declaración

por ejemplo "No podría vivir sin mi computadora".

Opciones de respuesta

Muy en desacuerdo
Discrepar
Neutral
Aceptar
Totalmente de acuerdo

Algunos datos se miden a nivel de intervalo . Los números indican la magnitud de la diferencia entre elementos, pero no existe un punto cero absoluto. Un buen ejemplo es una escala de temperatura Fahrenheit/Celsius donde las diferencias entre números importan, pero la ubicación del cero no.

Algunos datos se miden a nivel de ratio . Los números indican la magnitud de la diferencia y hay un punto cero fijo. Se pueden calcular proporciones. Los ejemplos incluyen edad, ingresos, precio, costos, ingresos por ventas, volumen de ventas y participación de mercado.

Se requiere más de una pregunta de escala de calificación para medir una actitud o percepción debido al requisito de comparaciones estadísticas entre las categorías en el modelo politómico de Rasch para categorías ordenadas. ^[1] En la teoría clásica de los tests , se requiere más de una pregunta para obtener un índice de confiabilidad interna como el alfa de Cronbach , ^[2] que es un criterio básico para evaluar la efectividad de una escala de calificación.

Escalas de calificación utilizadas en línea

Las escalas de calificación se utilizan ampliamente en línea en un intento de proporcionar indicaciones sobre las opiniones de los consumidores sobre los productos. Ejemplos de sitios que emplean escalas de calificación son IMDb , Epinions.com , Yahoo! Movies , Amazon.com , BoardGameGeek y TV.com que utilizan una escala de calificación de 0 a 100 para obtener "recomendaciones de películas personalizadas".

En casi todos los casos, las escalas de valoración online sólo permiten una valoración por usuario y por producto, aunque existen excepciones como Ratings.net , que permite a los usuarios valorar productos en relación a varias cualidades. La mayoría de los servicios de clasificación en línea también proporcionan pocas o ninguna descripción cualitativa de las categorías de clasificación, aunque nuevamente hay excepciones como Yahoo! Movies , que etiqueta cada una de las categorías entre F y A+ y BoardGameGeek, que proporciona descripciones explícitas de cada categoría del 1 al 10. A menudo, solo se describe la categoría superior e inferior, como en la función de clasificación en línea de IMDb .

Validez

La validez se refiere a qué tan bien una herramienta mide lo que pretende medir. Dado que cada usuario califica un producto solo una vez, por ejemplo en una categoría del 1 al 10, no hay forma de evaluar la confiabilidad interna utilizando un índice como el alfa de Cronbach . Por tanto, es imposible evaluar la validez de las calificaciones como medidas de las percepciones de los espectadores. Establecer la validez requeriría establecer tanto la confiabilidad como la precisión (es decir, que las calificaciones representen lo que se supone que deben representar). El grado de validez de un instrumento se determina mediante la aplicación de procedimientos lógicos o estadísticos. "Un procedimiento de medición es válido en la medida en que mide lo que se propone medir."

Otra cuestión fundamental es que las calificaciones en línea suelen implicar un muestreo de conveniencia muy parecido a las encuestas televisivas, es decir, representan sólo las opiniones de quienes se inclinan a presentar calificaciones.

La validez se refiere a diferentes aspectos del proceso de medición. Cada uno de estos tipos utiliza lógica, verificación estadística o ambas para determinar el grado de validez y tiene un valor especial bajo ciertas condiciones. Los tipos de validez incluyen validez de contenido, validez predictiva y validez de constructo.

Muestreo

Los errores de muestreo pueden conducir a resultados que tienen un sesgo específico o que sólo son relevantes para un subgrupo específico. Consideremos este ejemplo: supongamos que una película sólo atrae a un público especializado: el 90% de ellos son devotos de este género y sólo el 10% son personas con un interés general en el cine. Supongamos que la película es muy popular entre el público que la ve y que sólo aquellos que sienten más por ella se inclinan a calificarla en línea; por lo tanto, todos los evaluadores provienen de los devotos. Esta combinación puede conducir a calificaciones muy altas de la película, que no se generalizan más allá de las personas que realmente ven la película (o posiblemente incluso más allá de quienes realmente la califican).

Descripción cualitativa

La descripción cualitativa de las categorías mejora la utilidad de una escala de calificación. Por ejemplo, si solo se dan los puntos del 1 al 10 sin descripción, algunas personas pueden seleccionar 10 raramente, mientras que otras pueden seleccionar la categoría con frecuencia. Si, en cambio, "10" se describe como "casi perfecto", es más probable que la categoría signifique lo mismo para diferentes personas. Esto se aplica a todas las categorías, no sólo a los puntos extremos.

Los problemas anteriores se agravan cuando se utilizan estadísticas agregadas, como promedios, para listas y clasificaciones de productos. Las calificaciones de los usuarios son, en el mejor de los casos, categorizaciones ordinales . Si bien no es raro calcular promedios o medias para dichos datos, hacerlo no puede justificarse porque al calcular los promedios se requieren intervalos iguales para representar la misma diferencia entre los niveles de calidad percibida. Los problemas clave con los datos agregados basados en los tipos de escalas de calificación comúnmente utilizadas en línea son los siguientes:

No se deben calcular promedios para datos del tipo recopilado.
Generalmente es imposible evaluar la confiabilidad o validez de las calificaciones de los usuarios.
Los productos no se comparan con respecto a criterios explícitos, y mucho menos comunes ^{[ se necesita aclaración ]} .
Sólo los usuarios dispuestos a enviar una calificación para un producto lo hacen.
Los datos generalmente no se publican en una forma que permita la evaluación de las calificaciones de los productos.

Metodologías más desarrolladas incluyen el modelado de elección o los métodos de diferencia máxima , este último relacionado con el modelo de Rasch debido a la conexión entre la ley de juicio comparativo de Thurstone ^{[ se necesita aclaración ]} y el modelo de Rasch.

Reducción de la escala de calificación

Un esfuerzo de investigación colaborativo internacional ^[3] ha introducido un algoritmo basado en datos para una reducción de la escala de calificación. Se basa en el área bajo la característica operativa del receptor .

Orígenes

Los orígenes históricos de las escalas de calificación fueron reevaluados luego de un importante descubrimiento arqueológico en Tbilisi, Georgia , en 2010. Los excavadores desenterraron una tablilla que data del período medieval temprano, marcada con una antigua escritura georgiana. ^[4] Esta tableta mostraba una serie de marcas lineales, interpretadas como una forma temprana de una escala de calificación. Las inscripciones proporcionaron información sobre los métodos medievales de cuantificación y evaluación, sugiriendo una versión embrionaria de las escalas de calificación modernas. Este descubrimiento se conserva actualmente en el Museo Nacional de Georgia . ^[5]

Ver también

Wikiversidad tiene recursos de aprendizaje sobre formatos de respuesta.

Referencias

^ Andrich, David (diciembre de 1978). "Una formulación de calificación para categorías de respuesta ordenadas". Psicometrika . 43 (4): 561–573. doi :10.1007/BF02293814. S2CID 120687848.
^ Cronbach, Lee J. (septiembre de 1951). "Coeficiente alfa y la estructura interna de pruebas". Psicometrika . 16 (3): 297–334. CiteSeerX 10.1.1.452.6417 . doi :10.1007/BF02310555. S2CID 13820448.
^ Koczkodaj, Waldemar W; Kakiashvili, T.; Szymanska, A.; Montero-Marín, J.; Araya, R.; García-Campayo, J.; Rutkowski, K.; Strzałka, D. (2017). "¿Cómo reducir el número de elementos de la escala de calificación sin pérdida de previsibilidad?". Cienciometría . 111 (2): 581–593 (2017). doi : 10.1007/s11192-017-2283-4 . PMC 5400800 . PMID 28490822.
^ "მსოფლიოში ერთ-ერთი უძველესი კბილის აღმომჩენე ბი შარში ეხვევიან - სად არის ოროზმანელი ადამიან ის კბილი?". რადიო თავისუფლება (en georgiano). 2022-09-21 . Consultado el 17 de enero de 2024 .
^ ""არ არის აუცილებელი, მთელ საქართველოში ერთდრო ულად გათხრები ტარდებოდეს" - არქეოლოგები გათხრის უფლებას ვერ იღებენ". რადიო თავისუფლება (en georgiano). 2022-06-21 . Consultado el 17 de enero de 2024 .

enlaces externos

UEQ Diferencial semántico para medir la Experiencia de Usuario