Puntuación de opinión media

La puntuación de opinión media (MOS) es una medida utilizada en el ámbito de la calidad de la experiencia y la ingeniería de telecomunicaciones , que representa la calidad general de un estímulo o sistema. Es la media aritmética de todos los "valores individuales en una escala predefinida que un sujeto asigna a su opinión sobre el desempeño de la calidad de un sistema". ^[1] Estas calificaciones generalmente se recopilan en una prueba de evaluación de calidad subjetiva , pero también pueden estimarse algorítmicamente.

MOS es una medida comúnmente utilizada para la evaluación de la calidad de video, audio y audiovisual, pero no se limita a esas modalidades. El UIT-T ha definido varias formas de referirse a un MOS en la Recomendación UIT-T P.800.1, dependiendo de si la puntuación se obtuvo de pruebas de calidad audiovisual, conversacional, auditiva, hablada o de vídeo.

Escalas de calificación y definición matemática.

El MOS se expresa como un número racional único, normalmente en el rango de 1 a 5, donde 1 es la calidad percibida más baja y 5 es la calidad percibida más alta. También son posibles otros rangos de MOS, dependiendo de la escala de calificación que se haya utilizado en la prueba subyacente. La escala de calificación de categoría absoluta se usa con mucha frecuencia, que asigna calificaciones entre malas y excelentes a números entre 1 y 5, como se ve en la siguiente tabla.

En las Recomendaciones UIT-T existen otras escalas de calificación de calidad estandarizadas (como UIT-T P.800 o UIT-T P.910). Por ejemplo, se podría utilizar una escala continua que oscilara entre 1 y 100. La escala que se utilice depende del propósito de la prueba. En determinados contextos no existen diferencias estadísticamente significativas entre las valoraciones de los mismos estímulos cuando se obtienen utilizando diferentes escalas. ^[2]

El MOS se calcula como la media aritmética de calificaciones individuales realizadas por sujetos humanos para un estímulo determinado en una prueba de evaluación de calidad subjetiva . De este modo:

MOS={\frac {\sum _{n=1}^{N}{R_{n}}}{N}}

¿Dónde están las calificaciones individuales para un estímulo determinado por sujetos? $R$ $N$

Propiedades del MOS

El MOS está sujeto a ciertas propiedades y sesgos matemáticos. En general, existe un debate en curso sobre la utilidad del MOS para cuantificar la Calidad de la Experiencia en un único valor escalar. ^[3]

Cuando el MOS se adquiere utilizando escalas de calificación categóricas, se basa, de manera similar a las escalas Likert , en una escala ordinal . En este caso, se conoce la clasificación de los ítems de la escala, pero no su intervalo. Por lo tanto, es matemáticamente incorrecto calcular una media sobre calificaciones individuales para obtener la tendencia central; en su lugar se debe utilizar la mediana. ^[4] Sin embargo, en la práctica y en la definición de MOS, se considera aceptable calcular la media aritmética.

Se ha demostrado que en las escalas de calificación categóricas (como la ACR), los sujetos no perciben los elementos individuales de forma equidistante. Por ejemplo, puede haber una "brecha" mayor entre Bueno y Regular que entre Bueno y Excelente . La distancia percibida también puede depender del idioma al que se traduzca la escala. ^[5] Sin embargo, existen estudios que no pudieron demostrar un impacto significativo de la traducción de escala en los resultados obtenidos. ^[6]

Varios otros sesgos están presentes en la forma en que normalmente se adquieren las calificaciones MOS. ^[7] Además de los problemas mencionados anteriormente con las escalas que se perciben de forma no lineal, existe el llamado "sesgo de ecualización de rango": los sujetos, en el transcurso de un experimento subjetivo, tienden a dar puntuaciones que abarcan el escala de calificación completa. Esto hace imposible comparar dos pruebas subjetivas diferentes si el rango de calidad presentado difiere. En otras palabras, el MOS nunca es una medida absoluta de calidad, sino sólo relativa a la prueba en la que se ha adquirido.

Por las razones anteriores (y debido a varios otros factores contextuales que influyen en la calidad percibida en una prueba subjetiva), un valor de MOS solo debe informarse si también se conoce y se informa el contexto en el que se recopilaron los valores. Por lo tanto, los valores de MOS recopilados en diferentes contextos y diseños de prueba no deben compararse directamente. La Recomendación UIT-T P.800.2 prescribe cómo deben notificarse los valores de MOS. Específicamente, P.800.2 dice:

No tiene sentido comparar directamente los valores de MOS producidos a partir de experimentos separados, a menos que esos experimentos hayan sido diseñados explícitamente para ser comparados, e incluso entonces los datos deben analizarse estadísticamente para garantizar que dicha comparación sea válida.

MOS para estimación de calidad de voz y audio

Históricamente, MOS se origina a partir de mediciones subjetivas en las que los oyentes se sentaban en una "habitación tranquila" y calificaban la calidad de una llamada telefónica tal como la percibían. Este tipo de metodología de prueba se utiliza en la industria telefónica desde hace décadas y está estandarizada en la Recomendación UIT-T P.800. Especifica que "el hablante debe estar sentado en una habitación silenciosa con un volumen de entre 30 y 120 m³ y un tiempo de reverberación inferior a 500 ms (preferiblemente en el rango de 200 a 300 ms). El nivel de ruido de la habitación debe ser inferior a 30 dBA sin picos dominantes en el espectro." Los requisitos para otras modalidades se especificaron de manera similar en Recomendaciones UIT-T posteriores.

Estimación de MOS utilizando modelos de calidad.

Obtener calificaciones MOS puede llevar mucho tiempo y ser costoso, ya que requiere la contratación de evaluadores humanos. Para diversos casos de uso, como el desarrollo de códecs o el seguimiento de la calidad del servicio (donde la calidad debe estimarse de forma repetida y automática), las puntuaciones de MOS también se pueden predecir mediante modelos de calidad objetivos , que normalmente se han desarrollado y entrenado utilizando clasificaciones de MOS humanas. Una pregunta que surge al usar tales modelos es si las diferencias MOS producidas son perceptibles para los usuarios. Por ejemplo, al calificar imágenes en una escala MOS de cinco puntos, se espera que una imagen con un MOS igual a 5 sea notablemente mejor en calidad que una con un MOS igual a 1. Por el contrario, no es evidente si una imagen con un MOS igual a 3,8 tiene una calidad notablemente mejor que uno con un MOS igual a 3,6. La investigación realizada para determinar la diferencia de MOS más pequeña perceptible para los usuarios en fotografías digitales mostró que se requiere una diferencia de MOS de aproximadamente 0,46 para que el 75% de los usuarios puedan detectar la imagen de mayor calidad. ^[8] Sin embargo, la expectativa de calidad de imagen, y por lo tanto MOS, cambia con el tiempo con el cambio de expectativas del usuario. Como resultado, las diferencias mínimas perceptibles de MOS determinadas utilizando métodos analíticos como en ^[8] pueden cambiar con el tiempo.

Ver también

Referencias

^ Rec. UIT-T. P.10/G.100 (2017) Vocabulario de desempeño, calidad de servicio y calidad de experiencia.
^ Huynh-Thu, Q.; García, MN; Esperanza, F.; Corriveau, P.; Raake, A. (1 de marzo de 2011). "Estudio de escalas de calificación para la evaluación subjetiva de la calidad de vídeos de alta definición". Transacciones IEEE sobre radiodifusión . 57 (1): 1–14. doi :10.1109/TBC.2010.2086750. ISSN 0018-9316.
^ Hoßfeld, Tobías; Heegaard, Poul E.; Varela, Martín; Möller, Sebastián (1 de diciembre de 2016). "QoE más allá de MOS: una mirada en profundidad a QoE a través de mejores métricas y su relación con MOS". Calidad y Experiencia de Usuario . 1 (1): 2. arXiv : 1607.00321 . doi :10.1007/s41233-016-0002-1. ISSN 2366-0139.
^ Jamieson, Susan. "Escalas Likert: cómo (ab) usarlas". Educación médica 38.12 (2004): 1217-1218.
^ Streijl, Robert C., Stefan Winkler y David S. Hands. "Puntuación de opinión media (MOS) revisada: métodos y aplicaciones, limitaciones y alternativas". Sistemas multimedia 22.2 (2016): 213-227.
^ Pinson, MH; Janowski, L.; Pepión, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. (octubre de 2012). "La influencia de los sujetos y el entorno en las pruebas subjetivas audiovisuales: un estudio internacional" (PDF) . Revista IEEE de temas seleccionados en procesamiento de señales . 6 (6): 640–651. doi :10.1109/jstsp.2012.2215306. ISSN 1932-4553.
^ Zielinski, Slawomir, Francis Rumsey y Søren Bech. "Sobre algunos sesgos encontrados en las pruebas de escucha de calidad de audio modernas: una revisión". Revista de la Sociedad de Ingeniería de Audio 56.6 (2008): 427-451.
^ ab Katsigiannis, S.; Scovell, JN; Ramzan, N.; Janowski, L.; Corriveau, P.; Saad, M.; Van Wallendael, G. (2 de mayo de 2018). "Al interpretar las puntuaciones de MOS, ¿cuándo pueden los usuarios ver una diferencia? Comprender las diferencias en la experiencia del usuario en cuanto a la calidad de las fotografías". Calidad y Experiencia de Usuario . 3 (1): 6. doi :10.1007/s41233-018-0019-8. hdl : 1854/LU-8581457 . ISSN 2366-0139.