Calidad de video subjetiva

La calidad subjetiva del video es la calidad del video que experimentan los humanos. Se relaciona con la forma en que el espectador (también llamado "observador" o "sujeto") percibe el video y designa su opinión sobre una secuencia de video en particular . Está relacionada con el campo de la calidad de la experiencia . Medir la calidad subjetiva del video es necesario porque se ha demostrado que los algoritmos de evaluación de calidad objetiva, como PSNR, tienen una correlación deficiente con las calificaciones subjetivas. Las calificaciones subjetivas también se pueden usar como verdad fundamental para desarrollar nuevos algoritmos.

Las pruebas subjetivas de calidad de vídeo son experimentos psicofísicos en los que un número determinado de espectadores evalúa un conjunto determinado de estímulos. Estas pruebas son bastante costosas en términos de tiempo (preparación y ejecución) y recursos humanos, por lo que deben diseñarse con cuidado.

En las pruebas de calidad de video subjetivas, normalmente, las SRC ("Fuentes", es decir, secuencias de video originales) se tratan con varias condiciones ( " Circuitos de referencia hipotéticos") para generar PVS ("Secuencias de video procesadas"). ^[1]

Medición

La idea principal de medir la calidad subjetiva del video es similar a la evaluación de la puntuación de opinión media (MOS) para el audio . Para evaluar la calidad subjetiva del video de un sistema de procesamiento de video, normalmente se siguen los siguientes pasos:

Elija secuencias de vídeo originales y sin modificaciones para realizar pruebas.
Seleccione las configuraciones del sistema que se deben evaluar
Aplicar configuraciones al SRC, lo que da como resultado las secuencias de prueba
Elija un método de prueba que describa cómo se presentan las secuencias a los espectadores y cómo se recoge su opinión.
Invitar a un panel de espectadores
Realizar pruebas en un entorno específico (por ejemplo, un contexto de laboratorio) y presentar cada PVS en un orden determinado a cada espectador.
Calcular resultados de calificación para PVS, SRC y HRC individuales, por ejemplo, el MOS

Muchos parámetros de las condiciones de visualización pueden influir en los resultados, como la iluminación de la habitación, el tipo de pantalla, el brillo, el contraste, la resolución, la distancia de visualización y la edad y el nivel educativo de los espectadores. Por lo tanto, se recomienda informar esta información junto con las calificaciones obtenidas.

Selección de fuente

Por lo general, un sistema debe probarse con una cantidad representativa de contenidos diferentes y características de contenido. Por ejemplo, se pueden seleccionar fragmentos de contenidos de diferentes géneros, como películas de acción, programas de noticias y dibujos animados. La duración del vídeo original depende del propósito de la prueba, pero por lo general se utilizan secuencias de no menos de 10 segundos.

La cantidad de movimiento y detalle espacial también debe cubrir un amplio rango. Esto garantiza que la prueba contenga secuencias de diferente complejidad.

Las fuentes deben ser de una calidad impecable. No deben existir artefactos de codificación visibles ni otras propiedades que puedan reducir la calidad de la secuencia original.

Ajustes

El diseño de los HRC depende del sistema en estudio. Normalmente, en esta etapa se introducen múltiples variables independientes y se varían con varios niveles. Por ejemplo, para probar la calidad de un códec de vídeo , las variables independientes pueden ser el software de codificación de vídeo, una tasa de bits objetivo y la resolución objetivo de la secuencia procesada.

Se recomienda seleccionar configuraciones que den como resultado calificaciones que cubran todo el rango de calidad. En otras palabras, suponiendo una escala de calificación de categoría absoluta , la prueba debería mostrar secuencias que los espectadores calificarían de malas a excelentes.

Espectadores

Número de espectadores

Los espectadores también se denominan "observadores" o "sujetos". Se debe invitar a un número mínimo de espectadores a un estudio, ya que un mayor número de sujetos aumenta la fiabilidad del resultado del experimento, por ejemplo, al reducir la desviación estándar de las calificaciones promedio. Además, existe el riesgo de tener que excluir a los sujetos por comportamiento poco fiable durante la calificación.

El número mínimo de sujetos necesarios para un estudio subjetivo de la calidad de vídeo no está definido de forma estricta. Según la UIT-T, es posible cualquier número entre 4 y 40, siendo 4 el mínimo absoluto por razones estadísticas, y la invitación a más de 40 sujetos no tiene ningún valor añadido. En general, deben participar en el experimento al menos 15 observadores. No deben estar directamente implicados en la evaluación de la calidad de la imagen como parte de su trabajo y no deben ser evaluadores experimentados. ^[2] En otros documentos, también se afirma que se necesitan al menos 10 sujetos para obtener valoraciones medias significativas. ^[3]

Sin embargo, la mayoría de las recomendaciones para el número de sujetos se han diseñado para medir la calidad de vídeo que se encuentra en un televisor doméstico o un usuario de PC, donde el rango y la diversidad de distorsiones tienden a ser limitados (por ejemplo, solo a los artefactos de codificación). Dados los grandes rangos y la diversidad de deficiencias que pueden ocurrir en los vídeos capturados con dispositivos móviles y/o transmitidos a través de redes inalámbricas, por lo general, puede ser necesario un mayor número de sujetos humanos.

Brunnström y Barkowsky han proporcionado cálculos para estimar el número mínimo de sujetos necesarios basándose en pruebas subjetivas existentes. ^[4] Afirman que para asegurar diferencias estadísticamente significativas al comparar calificaciones, puede ser necesario un número mayor de sujetos del que se recomienda habitualmente.

Selección de espectadores

Los espectadores no deben ser expertos en el sentido de que no deben ser profesionales en el campo de la codificación de video o dominios relacionados. Este requisito se introduce para evitar posibles sesgos temáticos. ^[2]

Por lo general, se examina a los espectadores para determinar si tienen una visión normal o corregida a la normalidad mediante las tablas de Snellen . El daltonismo se suele evaluar con las tablas de Ishihara . ^[2]

En la comunidad de calidad de la experiencia se está debatiendo si el contexto cultural, social o económico del espectador tiene un impacto significativo en los resultados subjetivos de calidad de video obtenidos. Un estudio sistemático que involucró a seis laboratorios en cuatro países no encontró un impacto estadísticamente significativo del idioma y la cultura/país de origen del sujeto en las calificaciones de calidad de video. ^[5]

Entorno de prueba

Las pruebas de calidad subjetivas se pueden realizar en cualquier entorno. Sin embargo, debido a posibles factores de influencia de contextos heterogéneos, generalmente se recomienda realizar las pruebas en un entorno neutro, como una sala de laboratorio dedicada. Dicha sala puede estar insonorizada, con paredes pintadas de gris neutro y utilizar fuentes de luz calibradas adecuadamente. Varias recomendaciones especifican estas condiciones. ^[6]^[7] Se ha demostrado que los entornos controlados dan como resultado una menor variabilidad en las puntuaciones obtenidas. ^[5]

Colaboración colectiva

Recientemente se ha utilizado el crowdsourcing para la evaluación subjetiva de la calidad de los vídeos y, de forma más general, en el contexto de la calidad de la experiencia . ^[8] En este caso, los espectadores dan sus calificaciones utilizando su propio ordenador, en casa, en lugar de participar en una prueba de calidad subjetiva en salas de laboratorio. Si bien este método permite obtener más resultados que en las pruebas subjetivas tradicionales a un coste menor, es necesario comprobar cuidadosamente la validez y la fiabilidad de las respuestas recogidas. ^[9]

Análisis de resultados

Las opiniones de los espectadores se promedian normalmente para obtener la puntuación media de opinión (MOS). Para ello, las etiquetas de las escalas categóricas pueden traducirse a números. Por ejemplo, las respuestas "malo" a "excelente" pueden asignarse a los valores de 1 a 5 y, a continuación, promediarse. Los valores MOS siempre deben indicarse con sus intervalos de confianza estadística para que se pueda evaluar la concordancia general entre los observadores.

Selección de sujetos

A menudo, se toman medidas adicionales antes de evaluar los resultados. La selección de sujetos es un proceso en el que los espectadores cuyas calificaciones se consideran inválidas o poco fiables son rechazados del análisis posterior. Las calificaciones inválidas son difíciles de detectar, ya que los sujetos pueden haber calificado sin mirar un video o haber hecho trampa durante la prueba. La confiabilidad general de un sujeto se puede determinar mediante varios procedimientos, algunos de los cuales se describen en las recomendaciones de la UIT-R y la UIT-T. ^[2]^[7] Por ejemplo, la correlación entre las puntuaciones individuales de una persona y la MOS general, evaluada para todas las secuencias, es un buen indicador de su confiabilidad en comparación con los participantes restantes de la prueba.

Modelos avanzados

Al calificar estímulos, los seres humanos están sujetos a sesgos. Estos pueden llevar a un comportamiento de calificación diferente e inexacto y, en consecuencia, dar como resultado valores MOS que no son representativos de la “verdadera calidad” de un estímulo. En los últimos años, se han propuesto modelos avanzados que apuntan a describir formalmente el proceso de calificación y, posteriormente, recuperar el ruido en las calificaciones subjetivas. Según Janowski et al., los sujetos pueden tener un sesgo de opinión que generalmente cambia sus calificaciones, así como una imprecisión de calificación que depende del sujeto y el estímulo a calificar. ^[10] Li et al. han propuesto diferenciar entre inconsistencia del sujeto y ambigüedad del contenido . ^[11]

Métodos de prueba estandarizados

Existen muchas maneras de seleccionar secuencias, configuraciones de sistema y metodologías de prueba adecuadas. Algunas de ellas han sido estandarizadas y se describen detalladamente en varias recomendaciones de la UIT-R y la UIT-T, entre ellas la UIT-R BT.500 ^{[7] y la UIT-T P.910}^[2] . Si bien hay una superposición en ciertos aspectos, la recomendación BT.500 tiene sus raíces en la radiodifusión, mientras que la P.910 se centra en el contenido multimedia.

Un método de prueba estandarizado generalmente describe los siguientes aspectos:

¿Cuánto dura una sesión de experimentación?
donde se lleva a cabo el experimento
¿Cuántas veces y en qué orden se debe ver cada PVS?
si las calificaciones se toman una vez por estímulo (por ejemplo, después de la presentación) o de forma continua
si las calificaciones son absolutas, es decir, se refieren a un solo estímulo, o relativas (comparan dos o más estímulos)
¿En qué escala se toman las calificaciones?

Otra recomendación, ITU-T P.913, ^[6] otorga a los investigadores más libertad para realizar pruebas de calidad subjetivas en entornos diferentes de un laboratorio de pruebas típico, aunque aún les exige que informen todos los detalles necesarios para que dichas pruebas sean reproducibles.

Ejemplos

A continuación se explican algunos ejemplos de procedimientos de pruebas estandarizadas.

Estímulo único

ACR (clasificación absoluta por categoría): ^[2] cada secuencia se clasifica individualmente en la escala ACR . Las etiquetas de la escala son "mala", "deficiente", "regular", "buena" y "excelente", y se traducen a los valores 1, 2, 3, 4 y 5 al calcular la MOS.
ACR-HR (Clasificación de categoría absoluta con referencia oculta): una variación de ACR, en la que se muestra una secuencia fuente original intacta además de las secuencias alteradas, sin informar a los sujetos de su presencia (de ahí que esté "oculta"). Las clasificaciones se calculan como puntuaciones diferenciales entre la versión de referencia y la alterada. La puntuación diferencial se define como la puntuación de la PVS menos la puntuación otorgada a la referencia oculta, más el número de puntos en la escala. Por ejemplo, si una PVS se clasifica como "mala" y su referencia oculta correspondiente como "buena", entonces la calificación es . Cuando se promedian estas calificaciones, el resultado no es una MOS, sino una MOS diferencial ("DMOS"). ${\textstyle 2-4+5=3}$
SSCQE (Single Stimulus Continuous Quality Rating): ^[7] una secuencia más larga se califica de forma continua a lo largo del tiempo utilizando un dispositivo deslizante (una variación de un fader ), en el que los sujetos califican la calidad actual. Las muestras se toman a intervalos regulares, lo que da como resultado una curva de calidad a lo largo del tiempo en lugar de una calificación de calidad única.

Doble estímulo o estímulo múltiple

DSCQS (Escala de calidad continua de doble estímulo): ^[7] el espectador ve una referencia intacta y la secuencia alterada en un orden aleatorio. Se le permite volver a ver las secuencias y luego calificar la calidad de ambas en una escala continua etiquetada con las categorías ACR.
Tanto la DSIS (escala de deterioro por doble estímulo) ^[7] como la DCR (clasificación de la categoría de degradación): ^[2] hacen referencia al mismo método. El espectador ve un vídeo de referencia sin deterioro, luego el mismo vídeo con deterioro y, después, se le pide que vote sobre el segundo vídeo utilizando una denominada escala de deterioro (desde "los deterioros son imperceptibles" hasta "los deterioros son muy molestos").
PC (comparación de pares): ^[2] en lugar de comparar una secuencia intacta con una alterada, se comparan diferentes tipos de alteración (HRC). Se deben evaluar todas las combinaciones posibles de HRC.

Elección de la metodología

El método a elegir depende en gran medida del propósito de la prueba y de las posibles limitaciones de tiempo y otros recursos. Algunos métodos pueden tener menos efectos de contexto (es decir, cuando el orden de los estímulos influye en los resultados), que son sesgos de prueba no deseados. ^[12] En la norma ITU-T P.910, se señala que se deben utilizar métodos como DCR para probar la fidelidad de la transmisión, especialmente en sistemas de alta calidad. ACR y ACR-HR son más adecuados para pruebas de calificación y, debido a que brindan resultados absolutos, para la comparación de sistemas. El método PC tiene un alto poder discriminatorio, pero requiere sesiones de prueba más largas.

Bases de datos

Los resultados de las pruebas de calidad subjetiva, incluidos los estímulos utilizados, se denominan bases de datos . Los institutos de investigación han puesto a disposición del público una serie de bases de datos subjetivas de calidad de imágenes y vídeos basadas en dichos estudios. Estas bases de datos, algunas de las cuales se han convertido en estándares de facto, son utilizadas globalmente por ingenieros de televisión, cine y vídeo de todo el mundo para diseñar y probar modelos de calidad objetivos, ya que los modelos desarrollados se pueden entrenar con los datos subjetivos obtenidos. El Video Quality Experts Group ha compilado una descripción general de las bases de datos disponibles públicamente y los recursos de vídeo se han puesto a disposición en la Consumer Digital Video Library.

Referencias

^ Tutorial UIT-T: Evaluación perceptual objetiva de la calidad del vídeo: Televisión de referencia completa, 2004.
^ abcdefgh Rec. UIT-T P.910: Métodos de evaluación subjetiva de la calidad de vídeo para aplicaciones multimedia, 2008.
^ Winkler, Stefan. "Sobre las propiedades de las valoraciones subjetivas en experimentos de calidad de vídeo". Proc. Quality of Multimedia Experience , 2009.
^ Brunnström, Kjell; Barkowsky, Marcus (25 de septiembre de 2018). "Calidad estadística del análisis de la experiencia: sobre la planificación del tamaño de la muestra y las pruebas de significación estadística". Journal of Electronic Imaging . 27 (5): 053013. Bibcode :2018JEI....27e3013B. doi :10.1117/1.jei.27.5.053013. ISSN 1017-9909. S2CID 53058660.
^ ab Pinson, MH; Janowski, L.; Pepion, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. (octubre de 2012). "La influencia de los sujetos y el entorno en las pruebas subjetivas audiovisuales: un estudio internacional" (PDF) . IEEE Journal of Selected Topics in Signal Processing . 6 (6): 640–651. Bibcode :2012ISTSP...6..640P. doi :10.1109/jstsp.2012.2215306. ISSN 1932-4553. S2CID 10667847.
^ ab ITU-T P.913: Métodos para la evaluación subjetiva de la calidad de vídeo, calidad de audio y calidad audiovisual de la distribución de vídeo por Internet y de la televisión en cualquier entorno, 2014.
^ abcdef ITU-R BT.500: Metodología para la evaluación subjetiva de la calidad de las imágenes de televisión, 2012.
^ Hossfeld, Tobias (15 de enero de 2014). "Mejores prácticas para pruebas de calidad de la experiencia: evaluación de la calidad de la experiencia con crowdsourcing". IEEE Transactions on Multimedia . 16 (2): 541–558. doi :10.1109/TMM.2013.2291663. S2CID 16862362.
^ Hossfeld, Tobias; Hirth, Matthias; Redi, Judith; Mazza, Filippo; Korshunov, Pavel; Naderi, Babak; Seufert, Michael; Gardlo, Bruno; Egger, Sebastian (octubre de 2014). "Mejores prácticas y recomendaciones para la calidad de la experiencia mediante crowdsourcing: lecciones aprendidas del grupo de trabajo de Qualinet sobre crowdsourcing". hal-01078761. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Janowski, Lucjan; Pinson, Margaret (2015). "La precisión de los sujetos en un experimento de calidad: un modelo teórico de sujetos". IEEE Transactions on Multimedia . 17 (12): 2210–2224. doi : 10.1109/tmm.2015.2484963 . ISSN 1520-9210. S2CID 22343847.
^ Li, Zhi; Bampis, Christos G. (2017). "Recuperación de puntuaciones de calidad subjetivas a partir de mediciones ruidosas". Conferencia sobre compresión de datos (DCC) de 2017. IEEE. págs. 52–61. arXiv : 1611.01715 . doi :10.1109/dcc.2017.26. ISBN. 9781509067213. Número de identificación S2C14251604.
^ Pinson, Margaret y Wolf, Stephen. "Comparación de metodologías subjetivas de prueba de calidad de video". Conferencia SPIE sobre comunicaciones de video y procesamiento de imágenes , Lugano, Suiza, julio de 2003.

Enlaces externos

Grupo de expertos en calidad de video