Puntuación media de opinión

La puntuación media de opinión (MOS) es una medida utilizada en el ámbito de la calidad de la experiencia y la ingeniería de telecomunicaciones , que representa la calidad general de un estímulo o sistema. Es la media aritmética de todos los "valores individuales en una escala predefinida que un sujeto asigna a su opinión sobre el rendimiento de la calidad de un sistema". ^[1] Estas calificaciones suelen recopilarse en una prueba de evaluación de calidad subjetiva , pero también pueden estimarse algorítmicamente.

La MOS es una medida de uso común para la evaluación de la calidad de vídeo, audio y audiovisual, pero no se limita a esas modalidades. La UIT-T ha definido varias formas de referirse a una MOS en la Recomendación UIT-T P.800.1, dependiendo de si la puntuación se obtuvo a partir de pruebas de calidad audiovisual, conversacional, auditiva, hablada o de vídeo.

Escalas de calificación y definición matemática

La MOS se expresa como un único número racional, normalmente en el rango de 1 a 5, donde 1 es la calidad percibida más baja y 5 es la calidad percibida más alta. También son posibles otros rangos de MOS, según la escala de calificación que se haya utilizado en la prueba subyacente. La escala de calificación de categoría absoluta se utiliza con mucha frecuencia, que asigna calificaciones entre Mala y Excelente a números entre 1 y 5, como se ve en la siguiente tabla.

Existen otras escalas de calificación de calidad estandarizadas en las Recomendaciones UIT-T (como UIT-T P.800 o UIT-T P.910). Por ejemplo, se podría utilizar una escala continua que oscile entre 1 y 100. La escala que se utilice dependerá del propósito de la prueba. En ciertos contextos, no existen diferencias estadísticamente significativas entre las calificaciones de los mismos estímulos cuando se obtienen utilizando diferentes escalas. ^[2]

La MOS se calcula como la media aritmética de las valoraciones individuales realizadas por sujetos humanos para un estímulo dado en una prueba de evaluación subjetiva de la calidad . Por lo tanto:

MOS={\frac {\sum _{n=1}^{N}{R_{n}}}{N}}

¿Dónde están las calificaciones individuales para un estímulo dado por sujetos? $R$ $N$

Propiedades del MOS

El MOS está sujeto a ciertas propiedades matemáticas y sesgos. En general, existe un debate en curso sobre la utilidad del MOS para cuantificar la Calidad de la Experiencia en un único valor escalar. ^[3]

Cuando la MOS se adquiere utilizando una escala de calificación categórica, se basa, de manera similar a las escalas Likert , en una escala ordinal . En este caso, se conoce la clasificación de los elementos de la escala, pero no su intervalo. Por lo tanto, es matemáticamente incorrecto calcular una media sobre las calificaciones individuales para obtener la tendencia central; en su lugar, se debe utilizar la mediana. ^[4] Sin embargo, en la práctica y en la definición de MOS, se considera aceptable calcular la media aritmética.

Se ha demostrado que en las escalas de calificación categóricas (como la ACR), los sujetos no perciben los ítems de forma equidistante. Por ejemplo, puede haber una "brecha" mayor entre Bueno y Regular que entre Bueno y Excelente . La distancia percibida también puede depender del idioma al que se traduce la escala. ^[5] Sin embargo, existen estudios que no pudieron demostrar un impacto significativo de la traducción de la escala en los resultados obtenidos. ^[6]

Existen otros sesgos en la forma en que se obtienen normalmente las calificaciones MOS. ^[7] Además de los problemas mencionados anteriormente con las escalas que se perciben de forma no lineal, existe un denominado "sesgo de ecualización de rango": los sujetos, a lo largo de un experimento subjetivo, tienden a otorgar puntuaciones que abarcan toda la escala de calificación. Esto hace imposible comparar dos pruebas subjetivas diferentes si el rango de calidad presentado difiere. En otras palabras, la MOS nunca es una medida absoluta de calidad, sino solo relativa a la prueba en la que se ha obtenido.

Por las razones expuestas anteriormente (y debido a varios otros factores contextuales que influyen en la calidad percibida en una prueba subjetiva), un valor MOS solo se debe informar si se conoce y se informa también del contexto en el que se han recopilado los valores. Por lo tanto, los valores MOS obtenidos de diferentes contextos y diseños de prueba no se deben comparar directamente. La Recomendación UIT-T P.800.2 prescribe cómo se deben informar los valores MOS. En concreto, la P.800.2 dice:

No tiene sentido comparar directamente los valores MOS producidos a partir de experimentos separados, a menos que esos experimentos hayan sido diseñados explícitamente para ser comparados, e incluso en ese caso los datos deberían analizarse estadísticamente para garantizar que dicha comparación sea válida.

MOS para estimación de calidad de voz y audio

Históricamente, el MOS se origina a partir de mediciones subjetivas en las que los oyentes se sentaban en una "sala silenciosa" y puntuaban la calidad de la llamada telefónica según la percibían. Este tipo de metodología de prueba se ha utilizado en la industria de la telefonía durante décadas y se estandarizó en la Recomendación UIT-T P.800. En ella se especifica que "el hablante debe estar sentado en una sala silenciosa con un volumen de entre 30 y 120 m³ y un tiempo de reverberación inferior a 500 ms (preferiblemente en el rango de 200 a 300 ms). El nivel de ruido de la sala debe ser inferior a 30 dBA sin picos dominantes en el espectro". Los requisitos para otras modalidades se especificaron de forma similar en Recomendaciones UIT-T posteriores.

Estimación de MOS utilizando modelos de calidad

La obtención de calificaciones MOS puede llevar mucho tiempo y ser costosa, ya que requiere la contratación de evaluadores humanos. Para varios casos de uso, como el desarrollo de códecs o los fines de monitoreo de la calidad del servicio, donde la calidad debe estimarse de manera repetida y automática, las puntuaciones MOS también se pueden predecir mediante modelos de calidad objetivos , que generalmente se han desarrollado y entrenado utilizando calificaciones MOS humanas. Una pregunta que surge al usar dichos modelos es si las diferencias MOS producidas son perceptibles para los usuarios. Por ejemplo, al calificar imágenes en una escala MOS de cinco puntos, se espera que una imagen con un MOS igual a 5 sea notablemente mejor en calidad que una con un MOS igual a 1. Por el contrario, no es evidente si una imagen con un MOS igual a 3,8 es notablemente mejor en calidad que una con un MOS igual a 3,6. La investigación realizada para determinar la diferencia MOS más pequeña que es perceptible para los usuarios en fotografías digitales mostró que se requiere una diferencia MOS de aproximadamente 0,46 para que el 75% de los usuarios puedan detectar la imagen de mayor calidad. ^[8] Sin embargo, las expectativas de calidad de imagen y, por lo tanto, la MOS, cambian con el tiempo según las expectativas del usuario. Como resultado, las diferencias mínimas perceptibles de MOS determinadas mediante métodos analíticos como en ^[8] pueden cambiar con el tiempo.

Véase también

Referencias

^ Rec. UIT-T P.10/G.100 (2017) Vocabulario para rendimiento, calidad de servicio y calidad de experiencia.
^ Huynh-Thu, Q.; Garcia, MN; Speranza, F.; Corriveau, P.; Raake, A. (1 de marzo de 2011). "Estudio de escalas de calificación para la evaluación subjetiva de la calidad de video de alta definición". IEEE Transactions on Broadcasting . 57 (1): 1–14. doi :10.1109/TBC.2010.2086750. ISSN 0018-9316.
^ Hoßfeld, Tobías; Heegaard, Poul E.; Varela, Martín; Möller, Sebastián (1 de diciembre de 2016). "QoE más allá de MOS: una mirada en profundidad a QoE a través de mejores métricas y su relación con MOS". Calidad y Experiencia de Usuario . 1 (1): 2. arXiv : 1607.00321 . doi :10.1007/s41233-016-0002-1. ISSN 2366-0139.
^ Jamieson, Susan. "Escalas Likert: cómo (ab) usarlas". Educación médica 38.12 (2004): 1217-1218.
^ Streijl, Robert C., Stefan Winkler y David S. Hands. "Puntuación media de opinión (MOS) revisada: métodos y aplicaciones, limitaciones y alternativas". Multimedia Systems 22.2 (2016): 213-227.
^ Pinson, MH; Janowski, L.; Pepion, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. (octubre de 2012). "La influencia de los sujetos y el entorno en las pruebas subjetivas audiovisuales: un estudio internacional" (PDF) . IEEE Journal of Selected Topics in Signal Processing . 6 (6): 640–651. doi :10.1109/jstsp.2012.2215306. ISSN 1932-4553.
^ Zielinski, Slawomir, Francis Rumsey y Søren Bech. "Sobre algunos sesgos encontrados en las pruebas de escucha de calidad de audio modernas: una revisión". Journal of the Audio Engineering Society 56.6 (2008): 427-451.
^ ab Katsigiannis, S.; Scovell, JN; Ramzan, N.; Janowski, L.; Corriveau, P.; Saad, M.; Van Wallendael, G. (2018-05-02). "Interpretación de las puntuaciones MOS, ¿cuándo pueden los usuarios ver una diferencia? Comprender las diferencias en la experiencia del usuario para la calidad de la fotografía". Calidad y experiencia del usuario . 3 (1): 6. doi :10.1007/s41233-018-0019-8. hdl : 1854/LU-8581457 . ISSN 2366-0139.