stringtranslate.com

Calidad de vídeo subjetiva

La calidad de vídeo subjetiva es la calidad de vídeo experimentada por los humanos. Se ocupa de cómo el espectador (también llamado "observador" o "sujeto") percibe el vídeo y expresa su opinión sobre una secuencia de vídeo concreta . Está relacionado con el campo de la Calidad de la Experiencia . Es necesario medir la calidad subjetiva del vídeo porque se ha demostrado que los algoritmos objetivos de evaluación de la calidad, como PSNR, se correlacionan mal con las calificaciones subjetivas. Las calificaciones subjetivas también se pueden utilizar como verdad básica para desarrollar nuevos algoritmos.

Las pruebas subjetivas de calidad de vídeo son experimentos psicofísicos en los que varios espectadores califican un conjunto determinado de estímulos. Estas pruebas son bastante costosas en términos de tiempo (preparación y ejecución) y recursos humanos y, por lo tanto, deben diseñarse cuidadosamente.

En las pruebas subjetivas de calidad de vídeo, normalmente, los SRC ("Fuentes", es decir, secuencias de vídeo originales) se tratan con diversas condiciones ( HRC para "Circuitos de referencia hipotéticos") para generar PVS ("Secuencias de vídeo procesadas"). [1]

Medición

La idea principal de medir la calidad subjetiva del vídeo es similar a la evaluación de la puntuación de opinión media (MOS) para el audio . Para evaluar la calidad de vídeo subjetiva de un sistema de procesamiento de vídeo, normalmente se siguen los siguientes pasos:

Muchos parámetros de las condiciones de visualización pueden influir en los resultados, como la iluminación de la habitación, el tipo de pantalla, el brillo, el contraste, la resolución, la distancia de visualización y la edad y el nivel educativo de los espectadores. Por lo tanto, se recomienda reportar esta información junto con las calificaciones obtenidas.

Selección de fuente

Normalmente, un sistema debe probarse con un número representativo de contenidos y características de contenido diferentes. Por ejemplo, se pueden seleccionar extractos de contenidos de diferentes géneros, como películas de acción, programas de noticias y dibujos animados. La duración del vídeo fuente depende del propósito de la prueba, pero normalmente se utilizan secuencias de no menos de 10 segundos.

La cantidad de movimiento y detalle espacial también debería cubrir un amplio rango. Esto garantiza que la prueba contenga secuencias de diferente complejidad.

Las fuentes deben ser de perfecta calidad. No debe haber artefactos de codificación visibles ni otras propiedades que reduzcan la calidad de la secuencia original.

Ajustes

El diseño de los HRC depende del sistema en estudio. Por lo general, en esta etapa se introducen múltiples variables independientes y se varían en varios niveles. Por ejemplo, para probar la calidad de un códec de vídeo , las variables independientes pueden ser el software de codificación de vídeo, una tasa de bits objetivo y la resolución objetivo de la secuencia procesada.

Se recomienda seleccionar configuraciones que den como resultado calificaciones que cubran todo el rango de calidad. En otras palabras, asumiendo una escala de calificación de categoría absoluta , la prueba debería mostrar secuencias que los espectadores calificarían de malas a excelentes.

Espectadores

Número de espectadores

A los espectadores también se les llama "observadores" o "sujetos". Se debe invitar a un número mínimo de espectadores a un estudio, ya que un mayor número de sujetos aumenta la confiabilidad del resultado del experimento, por ejemplo al reducir la desviación estándar de las calificaciones promedio. Además, existe el riesgo de tener que excluir sujetos por comportamiento poco confiable durante la calificación.

El número mínimo de sujetos que se requieren para un estudio subjetivo de calidad de vídeo no está estrictamente definido. Según el UIT-T, es posible cualquier número entre 4 y 40, donde 4 es el mínimo absoluto por razones estadísticas, e invitar a más de 40 sujetos no tiene ningún valor añadido. En general, en el experimento deberían participar al menos 15 observadores. No deberían participar directamente en la evaluación de la calidad de la imagen como parte de su trabajo y no deberían ser evaluadores experimentados. [2] En otros documentos, también se afirma que se necesitan al menos 10 sujetos para obtener calificaciones promedio significativas. [3]

Sin embargo, la mayoría de las recomendaciones para el número de sujetos han sido diseñadas para medir la calidad de vídeo encontrada por un usuario de PC o televisor doméstico, donde el rango y la diversidad de distorsiones tienden a ser limitados (por ejemplo, a artefactos de codificación únicamente). Dada la gran variedad y diversidad de deterioros que pueden ocurrir en videos capturados con dispositivos móviles y/o transmitidos a través de redes inalámbricas, en general, es posible que se requiera una mayor cantidad de sujetos humanos.

Brunnström y Barkowsky han proporcionado cálculos para estimar el número mínimo de sujetos necesarios basándose en pruebas subjetivas existentes. [4] Afirman que para garantizar diferencias estadísticamente significativas al comparar calificaciones, puede ser necesario un número de sujetos mayor que el recomendado habitualmente.

Selección de espectador

Los espectadores no deben ser expertos en el sentido de no ser profesionales en el campo de la codificación de vídeo o dominios relacionados. Este requisito se introduce para evitar posibles sesgos del sujeto. [2]

Por lo general, a los espectadores se les realiza una prueba de visión normal o visión corregida a normal utilizando gráficos de Snellen . El daltonismo se prueba a menudo con placas de Ishihara . [2]

Existe una discusión en curso en la comunidad QoE sobre si los antecedentes culturales, sociales o económicos de un espectador tienen un impacto significativo en los resultados subjetivos de calidad de video obtenidos. Un estudio sistemático que involucró a seis laboratorios en cuatro países no encontró ningún impacto estadísticamente significativo del idioma y la cultura/país de origen del sujeto en las calificaciones de calidad del video. [5]

Entorno de prueba

Las pruebas de calidad subjetivas se pueden realizar en cualquier entorno. Sin embargo, debido a posibles factores de influencia de contextos heterogéneos, normalmente se recomienda realizar las pruebas en un entorno neutral, como una sala de laboratorio exclusiva. Una habitación de este tipo puede estar insonorizada, con paredes pintadas en gris neutro y utilizando fuentes de luz adecuadamente calibradas. Varias recomendaciones especifican estas condiciones. [6] [7] Se ha demostrado que los entornos controlados dan como resultado una menor variabilidad en las puntuaciones obtenidas. [5]

Crowdsourcing

El crowdsourcing se ha utilizado recientemente para la evaluación subjetiva de la calidad del vídeo y, de manera más general, en el contexto de la calidad de la experiencia . [8] Aquí, los espectadores dan valoraciones utilizando su propio ordenador, en casa, en lugar de participar en una prueba de calidad subjetiva en salas de laboratorio. Si bien este método permite obtener más resultados que las pruebas subjetivas tradicionales a menores costos, la validez y confiabilidad de las respuestas recopiladas deben verificarse cuidadosamente. [9]

Análisis de resultados

Las opiniones de los espectadores normalmente se promedian en la puntuación de opinión media (MOS). Para ello, las etiquetas de las escalas categóricas pueden traducirse a números. Por ejemplo, las respuestas de "mala" a "excelente" se pueden asignar a los valores del 1 al 5 y luego promediarlas. Los valores de MOS siempre deben informarse con sus intervalos de confianza estadísticos para que se pueda evaluar el acuerdo general entre los observadores.

Selección de sujetos

A menudo, se toman medidas adicionales antes de evaluar los resultados. La selección de sujetos es un proceso en el que los espectadores cuyas calificaciones se consideran inválidas o poco confiables son rechazados de un análisis posterior. Las calificaciones no válidas son difíciles de detectar, ya que los sujetos pueden haber calificado sin mirar un video o haber hecho trampa durante la prueba. La confiabilidad general de un tema puede determinarse mediante varios procedimientos, algunos de los cuales se describen en las recomendaciones del UIT-R y del UIT-T. [2] [7] Por ejemplo, la correlación entre las puntuaciones individuales de una persona y el MOS general, evaluado para todas las secuencias, es un buen indicador de su confiabilidad en comparación con el resto de los participantes de la prueba.

Modelos avanzados

Al calificar estímulos, los humanos estamos sujetos a sesgos. Esto puede dar lugar a un comportamiento de puntuación diferente e inexacto y, en consecuencia, dar lugar a valores de MOS que no son representativos de la "verdadera calidad" de un estímulo. En los últimos años se han propuesto modelos avanzados que apuntan a describir formalmente el proceso de calificación y posteriormente recuperar el ruido en las calificaciones subjetivas. Según Janowski et al., los sujetos pueden tener un sesgo de opinión que generalmente modifica sus puntuaciones, así como una imprecisión en la puntuación que depende del sujeto y del estímulo a evaluar. [10] Li et al. han propuesto diferenciar entre inconsistencia temática y ambigüedad de contenido . [11]

Métodos de prueba estandarizados

Hay muchas formas de seleccionar secuencias, configuraciones del sistema y metodologías de prueba adecuadas. Algunos de ellos han sido estandarizados. Se describen detalladamente en varias recomendaciones ITU-R y ITU-T, entre ellas ITU-R BT.500 [7] y ITU-T P.910. [2] Si bien existe una superposición en ciertos aspectos, la recomendación BT.500 tiene sus raíces en la radiodifusión, mientras que P.910 se centra en el contenido multimedia.

Un método de prueba estandarizado generalmente describe los siguientes aspectos:

Otra recomendación, ITU-T P.913, [6] brinda a los investigadores más libertad para realizar pruebas de calidad subjetivas en entornos diferentes a los de un laboratorio de pruebas típico, al tiempo que les exige que informen de todos los detalles necesarios para que dichas pruebas sean reproducibles.

Ejemplos

A continuación, se explican algunos ejemplos de procedimientos de prueba estandarizados.

Estímulo único

Doble estímulo o estímulo múltiple

Elección de la metodología

El método a elegir depende en gran medida del propósito de la prueba y de las posibles limitaciones de tiempo y otros recursos. Algunos métodos pueden tener menos efectos de contexto (es decir, cuando el orden de los estímulos influye en los resultados), que son sesgos de prueba no deseados. [12] En UIT-T P.910, se señala que se deben utilizar métodos como DCR para probar la fidelidad de la transmisión, especialmente en sistemas de alta calidad. ACR y ACR-HR son más adecuados para pruebas de calificación y, debido a que dan resultados absolutos, para comparar sistemas. El método PC tiene un alto poder discriminatorio, pero requiere sesiones de prueba más largas.

Bases de datos

Los resultados de las pruebas subjetivas de calidad, incluidos los estímulos utilizados, se denominan bases de datos . Los institutos de investigación han puesto a disposición del público varias bases de datos subjetivas de calidad de imágenes y vídeos basadas en dichos estudios. Estas bases de datos (algunas de las cuales se han convertido en estándares de facto) son utilizadas globalmente por ingenieros de televisión, cine y vídeo de todo el mundo para diseñar y probar modelos de calidad objetivos, ya que los modelos desarrollados pueden entrenarse con los datos subjetivos obtenidos. El Grupo de expertos en calidad de video ha compilado una descripción general de las bases de datos disponibles públicamente y los recursos de video se han puesto a disposición en la Biblioteca de videos digitales para consumidores.

Referencias

  1. ^ Tutorial del UIT-T: Evaluación de la percepción objetiva de la calidad del vídeo: televisión de referencia completa, 2004.
  2. ^ abcdefgh Rec. UIT-T. P.910: Métodos subjetivos de evaluación de la calidad de vídeo para aplicaciones multimedia, 2008.
  3. ^ Winkler, Stefan. "Sobre las propiedades de las calificaciones subjetivas en experimentos de calidad de vídeo". Proc. Calidad de la Experiencia Multimedia , 2009.
  4. ^ Brunnström, Kjell; Barkowsky, Marcus (25 de septiembre de 2018). "Análisis estadístico de la calidad de la experiencia: sobre la planificación del tamaño de la muestra y las pruebas de significación estadística". Revista de imágenes electrónicas . 27 (5): 053013. Código bibliográfico : 2018JEI....27e3013B. doi :10.1117/1.jei.27.5.053013. ISSN  1017-9909. S2CID  53058660.
  5. ^ ab Pinson, MH; Janowski, L.; Pepión, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. (octubre de 2012). "La influencia de los sujetos y el entorno en las pruebas subjetivas audiovisuales: un estudio internacional" (PDF) . Revista IEEE de temas seleccionados en procesamiento de señales . 6 (6): 640–651. Código Bib : 2012ISTSP...6..640P. doi :10.1109/jstsp.2012.2215306. ISSN  1932-4553. S2CID  10667847.
  6. ^ ab ITU-T P.913: Métodos para la evaluación subjetiva de la calidad de video, la calidad de audio y la calidad audiovisual del video de Internet y la calidad de distribución de televisión en cualquier entorno, 2014.
  7. ^ abcdef ITU-R BT.500: Metodología para la evaluación subjetiva de la calidad de las imágenes de televisión, 2012.
  8. ^ Hossfeld, Tobías (15 de enero de 2014). "Mejores prácticas para pruebas colectivas de QoE: evaluación de QoE con crowdsourcing". Transacciones IEEE en multimedia . 16 (2): 541–558. doi :10.1109/TMM.2013.2291663. S2CID  16862362.
  9. ^ Hossfeld, Tobías; Hirth, Matías; Redi, Judith; Mazza, Filippo; Korshunov, Pavel; Naderi, Babak; Seufert, Michael; Gardlo, Bruno; Egger, Sebastián (octubre de 2014). "Mejores prácticas y recomendaciones para la calidad de la experiencia mediante crowdsourcing: lecciones aprendidas del grupo de trabajo de Qualinet" Crowdsourcing"". hal-01078761. {{cite journal}}: Citar diario requiere |journal=( ayuda )
  10. ^ Janowski, Lucjan; Pinson, Margarita (2015). "La precisión de los sujetos en un experimento de calidad: un modelo de sujeto teórico". Transacciones IEEE en multimedia . 17 (12): 2210–2224. doi : 10.1109/tmm.2015.2484963 . ISSN  1520-9210. S2CID  22343847.
  11. ^ Li, Zhi; Bampis, Christos G. (2017). "Recuperar puntuaciones de calidad subjetivas de mediciones ruidosas". Conferencia de compresión de datos (DCC) de 2017 . IEEE. págs. 52–61. arXiv : 1611.01715 . doi :10.1109/dcc.2017.26. ISBN 9781509067213. S2CID  14251604.
  12. ^ Pinson, Margaret y Wolf, Stephen. "Comparación de metodologías de prueba de calidad de vídeo subjetiva". Conferencia SPIE sobre comunicaciones por vídeo y procesamiento de imágenes , Lugano, Suiza, julio de 2003.

enlaces externos