La calidad del video es una característica de un video que pasa a través de un sistema de procesamiento o transmisión de video que describe la degradación del video percibida (generalmente en comparación con el video original). Los sistemas de procesamiento de video pueden introducir cierta distorsión o artefactos en la señal de video que impactan negativamente la percepción que tiene el usuario del sistema. Para muchas partes interesadas en la producción y distribución de videos , garantizar la calidad del video es una tarea importante.
La evaluación de la calidad del video se realiza para describir la calidad de un conjunto de secuencias de video bajo estudio. La calidad del vídeo se puede evaluar objetivamente (mediante modelos matemáticos ) o subjetivamente (preguntando a los usuarios su calificación). Además, la calidad de un sistema se puede determinar fuera de línea (es decir, en un laboratorio para desarrollar nuevos códecs o servicios) o en servicio (para monitorear y garantizar un cierto nivel de calidad).
Del vídeo analógico al digital
Desde que se grabó y transmitió la primera secuencia de vídeo del mundo, se han diseñado muchos sistemas de procesamiento de vídeo. Estos sistemas codifican transmisiones de vídeo y las transmiten a través de diversos tipos de redes o canales. En la era de los sistemas de vídeo analógico , era posible evaluar los aspectos de calidad de un sistema de procesamiento de vídeo calculando la respuesta de frecuencia del sistema utilizando señales de prueba (por ejemplo, una colección de barras y círculos de colores).
Los sistemas de vídeo digital han sustituido casi por completo a los analógicos y los métodos de evaluación de la calidad han cambiado. El rendimiento de un sistema de transmisión y procesamiento de video digital puede variar significativamente y depende de muchos factores, incluidas las características de la señal de video de entrada (por ejemplo, cantidad de movimiento o detalles espaciales), las configuraciones utilizadas para la codificación y transmisión y la fidelidad del canal. o rendimiento de la red .
Calidad de vídeo objetiva
Los modelos objetivos de calidad de video son modelos matemáticos que aproximan los resultados de una evaluación subjetiva de la calidad , en la que se pide a observadores humanos que califiquen la calidad de un video. [1] En este contexto, el término modelo puede referirse a un modelo estadístico simple en el que varias variables independientes (por ejemplo, la tasa de pérdida de paquetes en una red y los parámetros de codificación de video) se ajustan a los resultados obtenidos en una prueba de evaluación de calidad subjetiva utilizando técnicas de regresión . Un modelo también puede ser un algoritmo más complicado implementado en software o hardware .
Terminología
Los términos modelo y métrica se utilizan a menudo indistintamente en el campo para referirse a una estadística descriptiva que proporciona un indicador de calidad. El término “objetivo” se refiere a que, en general, los modelos de calidad se basan en criterios que pueden medirse objetivamente , es decir, libres de interpretación humana. Pueden ser evaluados automáticamente por un programa informático . A diferencia de un panel de observadores humanos, un modelo objetivo siempre debe generar de manera determinista el mismo puntaje de calidad para un conjunto determinado de parámetros de entrada.
Los modelos de calidad objetivos a veces también se denominan modelos instrumentales (de calidad) , [2] [3] para enfatizar su aplicación como instrumentos de medición. Algunos autores sugieren que el término “objetivo” es engañoso, ya que “implica que las mediciones instrumentales conllevan objetividad, lo que sólo ocurre en los casos en que pueden generalizarse”. [4]
Clasificación de modelos objetivos de calidad de vídeo.
Los modelos objetivos se pueden clasificar por la cantidad de información disponible sobre la señal original, la señal recibida o si hay alguna señal presente: [5]
Métodos de referencia completa (FR): los modelos FR calculan la diferencia de calidad comparando la señal de vídeo original con la señal de vídeo recibida . Normalmente, cada píxel de la fuente se compara con el píxel correspondiente en el vídeo recibido, sin conocimiento sobre el proceso de codificación o transmisión intermedio. Algoritmos más elaborados pueden optar por combinar la estimación basada en píxeles con otros enfoques, como los que se describen a continuación. Los modelos FR suelen ser los más precisos, a expensas de un mayor esfuerzo computacional. Como requieren la disponibilidad del vídeo original antes de la transmisión o codificación, no se pueden utilizar en todas las situaciones (por ejemplo, cuando la calidad se mide desde un dispositivo cliente).
Métodos de referencia reducidos (RR): los modelos RR extraen algunas características de ambos vídeos y los comparan para dar una puntuación de calidad. Se utilizan cuando no está disponible todo el vídeo original o cuando sería prácticamente imposible hacerlo, por ejemplo en una transmisión con un ancho de banda limitado. Esto los hace más eficientes que los modelos FR a expensas de una menor precisión.
Métodos sin referencia (NR): los modelos NR intentan evaluar la calidad de un vídeo distorsionado sin ninguna referencia a la señal original. Debido a la ausencia de una señal original, pueden ser menos precisos que los enfoques FR o RR, pero son más eficientes de calcular. El Grupo de Expertos en Calidad de Video tiene un grupo de trabajo dedicado al desarrollo de métricas sin referencia (llamado NORM).
Métodos basados en píxeles (NR-P): los modelos basados en píxeles utilizan una representación decodificada de la señal y analizan la calidad en función de la información de los píxeles. Algunos de ellos evalúan únicamente tipos de degradación específicos, como desenfoque u otros artefactos de codificación .
Métodos paramétricos/de flujo de bits (NR-B): estos modelos utilizan características extraídas del contenedor de transmisión y/o del flujo de bits de vídeo, por ejemplo, encabezados de paquetes MPEG-TS , vectores de movimiento y parámetros de cuantificación. No tienen acceso a la señal original y no requieren decodificación del vídeo, lo que los hace más eficientes. A diferencia de los modelos NR-P, no tienen acceso a la señal final decodificada. En algunos casos, la precisión de la predicción de las métricas basadas en flujos de bits puede alcanzar una referencia completa sin necesidad de una referencia. [6]
Métodos híbridos (Hybrid NR-PB): los modelos híbridos combinan parámetros extraídos del flujo de bits con una señal de video decodificada. [7] Son, por tanto, una mezcla entre los modelos NR-P y NR-B.
Uso de modelos de calidad de imagen para estimar la calidad de video.
Algunos modelos que se utilizan para la evaluación de la calidad del vídeo (como PSNR o SSIM ) son simplemente modelos de calidad de imagen , cuya salida se calcula para cada fotograma de una secuencia de vídeo. Shahid et al. también ofrecen una descripción general de los modelos recientes de calidad de imagen sin referencia en un artículo de revista. [5]
La medida de calidad de cada fotograma de un vídeo (según lo determinado por un modelo de calidad de imagen) se puede registrar y agrupar a lo largo del tiempo para evaluar la calidad de una secuencia de vídeo completa. Si bien este método es fácil de implementar, no tiene en cuenta ciertos tipos de degradaciones que se desarrollan con el tiempo, como los artefactos en movimiento causados por la pérdida de paquetes y su ocultación . Un modelo de calidad de vídeo que considere los aspectos temporales de las degradaciones de calidad, como VQM o MOVIE Index , puede producir predicciones más precisas de la calidad percibida por los humanos.
Artefactos de calidad de video
La estimación de artefactos visuales es una técnica bien conocida para estimar la calidad general del vídeo. La mayoría de estos artefactos son artefactos de compresión causados por una compresión con pérdida. Algunos de los atributos que normalmente se estiman mediante métricas basadas en píxeles incluyen:
Espacial
Desenfoque : resultado de la pérdida de detalles de la imagen de alta frecuencia espacial, generalmente en bordes nítidos.
Bloqueo : es causado por múltiples algoritmos debido a la representación interna de una imagen con bloques de tamaño 8, 16 o 32. Con parámetros específicos, pueden promediar los píxeles dentro de un bloque haciendo que los bloques sean distintos.
Zumbidos , ecos o imágenes fantasma: toman la forma de un "halo", una banda o un "fantasma" cerca de los bordes afilados.
Sangrado de color : ocurre cuando los bordes de un color en la imagen se sangran o se superponen involuntariamente en otro color.
El ruido de las escaleras es un caso especial de bloqueo a lo largo de un borde diagonal o curvo. En lugar de volverse tan suave, adquiere la apariencia de escalones.
Temporal
Parpadeo : suele ser un cambio frecuente de brillo o color a lo largo de la dimensión temporal. A menudo se produce un parpadeo de grano fino y un parpadeo de grano grueso.
Ruido de mosquito : una variante del parpadeo, que se tipifica como neblina y/o brillo alrededor de contenido de alta frecuencia (transiciones nítidas entre entidades de primer plano y el fondo o bordes duros).
Flotante : se refiere al movimiento ilusorio en ciertas regiones mientras las áreas circundantes permanecen estáticas. Visualmente, estas regiones aparecen como si estuvieran flotando sobre el fondo circundante.
Sacudida o vibración: es el movimiento percibido desigual o tambaleante debido al muestreo de fotogramas. A menudo se debe a la conversión de películas de 24 fps a un formato de vídeo de 30 o 60 fps.
Ejemplos de métricas de calidad de video
Esta sección enumera ejemplos de métricas de calidad de video.
Formación y evaluación del desempeño.
Dado que se espera que los modelos objetivos de calidad de vídeo predigan los resultados proporcionados por observadores humanos, se desarrollan con la ayuda de resultados de pruebas subjetivas . Durante el desarrollo de un modelo objetivo, sus parámetros deben entrenarse para lograr la mejor correlación entre los valores predichos objetivamente y las puntuaciones subjetivas, a menudo disponibles como puntuaciones de opinión medias (MOS).
Los materiales de prueba subjetivos más utilizados son de dominio público e incluyen imágenes fijas, imágenes en movimiento, transmisión de video, alta definición, 3-D (estereoscópico) y conjuntos de datos relacionados con la calidad de la imagen para fines especiales. [18] Estas llamadas bases de datos son creadas por varios laboratorios de investigación de todo el mundo. Algunas de ellas se han convertido en estándares de facto, incluidas varias bases de datos de calidad de imagen subjetiva de dominio público creadas y mantenidas por el Laboratorio de Ingeniería de Imagen y Vídeo (LIVE), así como la Base de datos de imágenes de Tampere 2008. Puede encontrar una colección de bases de datos en QUALINET. Repositorio de bases de datos. La Consumer Digital Video Library (CDVL) alberga secuencias de prueba de vídeo disponibles gratuitamente para el desarrollo de modelos.
Algunas bases de datos también proporcionan puntuaciones de métricas calculadas previamente para permitir a otros comparar nuevas métricas con las existentes. Se pueden ver ejemplos en la siguiente tabla.
En teoría, un modelo se puede entrenar con un conjunto de datos de tal manera que produzca puntuaciones que coincidan perfectamente en ese conjunto de datos. Sin embargo, dicho modelo estará sobreentrenado y, por lo tanto, no funcionará bien en nuevos conjuntos de datos. Por lo tanto, se recomienda validar los modelos con datos nuevos y utilizar el rendimiento resultante como un indicador real de la precisión de la predicción del modelo.
Los modelos objetivos de calidad de vídeo se pueden utilizar en diversas áreas de aplicación. En el desarrollo de códecs de vídeo , el rendimiento de un códec suele evaluarse en términos de PSNR o SSIM. Para los proveedores de servicios, se pueden utilizar modelos objetivos para monitorear un sistema. Por ejemplo, un proveedor de IPTV puede optar por monitorear la calidad de su servicio mediante modelos objetivos, en lugar de pedir la opinión de los usuarios o esperar quejas de los clientes sobre la mala calidad del video. Pocos de estos estándares han encontrado aplicaciones comerciales, incluidos PEVQ y VQuad-HD . SSIM también forma parte de un conjunto de herramientas de calidad de vídeo disponible comercialmente (SSIMWAVE). Netflix utiliza VMAF para ajustar sus algoritmos de codificación y transmisión, y para controlar la calidad de todo el contenido transmitido. [19] [20] También está siendo utilizado por otras empresas de tecnología como Bitmovin [21] y se ha integrado en software como FFmpeg .
Un modelo objetivo sólo debe utilizarse en el contexto para el que fue desarrollado. Por ejemplo, no se garantiza que un modelo desarrollado utilizando un códec de vídeo concreto sea preciso para otro códec de vídeo. De manera similar, un modelo entrenado en pruebas realizadas en una pantalla de televisión grande no debe usarse para evaluar la calidad de un video visto en un teléfono móvil.
Otros enfoques
Al estimar la calidad de un códec de vídeo, todos los métodos objetivos mencionados pueden requerir la repetición de pruebas posteriores a la codificación para determinar los parámetros de codificación que satisfacen un nivel requerido de calidad visual, lo que los hace lentos, complejos y poco prácticos para su implementación en aplicaciones comerciales reales. . Se están realizando investigaciones para desarrollar nuevos métodos de evaluación objetiva que permitan predecir el nivel de calidad percibido del vídeo codificado antes de que se realice la codificación real. [22]
Calidad de vídeo subjetiva
El objetivo principal de las métricas de calidad de video de múltiples objetivos es estimar automáticamente la opinión del usuario promedio (espectador) sobre la calidad de un video procesado por un sistema. Los procedimientos para mediciones subjetivas de la calidad de vídeo se describen en la recomendación ITU-R BT.500 y la recomendación ITU-T P.910. En dichas pruebas, se muestran secuencias de vídeo a un grupo de espectadores. La opinión de los espectadores se registra y se promedia en la puntuación de opinión media para evaluar la calidad de cada secuencia de vídeo. Sin embargo, el procedimiento de prueba puede variar según el tipo de sistema que se pruebe.
Herramientas para la evaluación de la calidad del vídeo.
^ "Métodos objetivos de evaluación de la calidad del vídeo para el sistema de arbitraje asistente de vídeo (VAR)" (PDF) .
^ Raake, Alejandro (2006). Calidad de voz de VoIP: evaluación y predicción . Wiley InterScience (servicio en línea). Chichester, Inglaterra: Wiley. ISBN9780470030608. OCLC 85785040.
^ Möller, Sebastián (2000). Evaluación y Predicción de la Calidad del Habla en Telecomunicaciones . Boston, MA: Springer EE. UU. ISBN9781475731170. OCLC 851800613.
^ Raake, Alejandro; Egger, Sebastián (2014). Calidad de la Experiencia . Serie T-Labs en Servicios de Telecomunicaciones. Springer, Cham. págs. 11–33. doi :10.1007/978-3-319-02681-7_2. ISBN9783319026800.
^ ab Shahid, Mahoma; Rossholm, Andreas; Lövström, Benny; Zepernick, Hans-Jürgen (14 de agosto de 2014). "Evaluación de la calidad de imágenes y vídeos sin referencia: una clasificación y revisión de enfoques recientes". Revista EURASIP sobre Procesamiento de Imágenes y Vídeo . 2014 : 40. doi : 10.1186/1687-5281-2014-40 . ISSN 1687-5281.
^ Camarero, Nabajeet; Reznik, Yuriy; Martini, María G. (2023). "Un conjunto de datos subjetivos para aplicaciones de transmisión de vídeo multipantalla". arXiv : 2305.03138 [cs.MM].
^ Lee, Seon-Oh; Jung, Kwang-Su; Sim, Dong-Gyu (2010). "Evaluación de la calidad objetiva en tiempo real basada en parámetros de codificación extraídos de H.264/AVC Bitstream". Transacciones IEEE sobre electrónica de consumo . 56 (2): 1071–1078. doi :10.1109/TCE.2010.5506041. S2CID 23190244.
^ Wang, Zhou; Bovik, AC; jeque, recursos humanos; Simoncelli, EP (1 de abril de 2004). "Evaluación de la calidad de la imagen: de la visibilidad del error a la similitud estructural". Transacciones IEEE sobre procesamiento de imágenes . 13 (4): 600–612. Código Bib : 2004ITIP...13..600W. CiteSeerX 10.1.1.2.5689 . doi :10.1109/TIP.2003.819861. ISSN 1057-7149. PMID 15376593. S2CID 207761262.
^ Seshadrinathan, K.; Bovik, AC (1 de febrero de 2010). "Evaluación de la calidad espacio-temporal ajustada al movimiento de vídeos naturales". Transacciones IEEE sobre procesamiento de imágenes . 19 (2): 335–350. Código Bib : 2010ITIP...19..335S. CiteSeerX 10.1.1.153.9018 . doi :10.1109/TIP.2009.2034992. ISSN 1057-7149. PMID 19846374. S2CID 15356687.
^ vmaf: evaluación perceptual de la calidad del video basada en la fusión de múltiples métodos, Netflix, Inc., 2017-07-14 , consultado el 15 de julio de 2017
^ "Descripción del software de métrica de calidad de vídeo (VQM): ITS". es.ntia.gov . Consultado el 12 de julio de 2023 .
^ Kourtis, MA; Kumaras, H.; Liberal, F. (julio-agosto de 2016). "Evaluación de la calidad del vídeo de referencia reducida mediante un patrón de vídeo estático". Revista de imágenes electrónicas . 25 (4): 043011. Código bibliográfico : 2016JEI....25d3011K. doi : 10.1117/1.jei.25.4.043011 .
^ Soundararajan, R.; Bovik, AC (4 de abril de 2013). "Evaluación de la calidad del vídeo mediante diferenciación entrópica espacio-temporal de referencia reducida". Transacciones IEEE sobre circuitos y sistemas para tecnología de vídeo . 23 (4): 684–694. doi :10.1109/tcsvt.2012.2214933. S2CID 206661510.
^ abc Raake, Alejandro; Borer, Silvio; Satti, Shahid M.; Gustafsson, Jorgen; Rao, Rakesh Rao Ramachandra; Medagli, Stefano; Lista, Pedro; Goring, Steve; Lindero, David; Robitza, Werner; Heikkila, Gunnar; Escoba, Simón; Schmidmer, cristiano; Feiten, Bernhard; Wustenhagen, Ulf (2020). "Estándar multimodelo para evaluación de la calidad de vídeo híbrida, basada en píxeles y en flujo de bits de UHD/4K: ITU-T P.1204". Acceso IEEE . 8 : 193020–193049. doi : 10.1109/ACCESS.2020.3032080 . ISSN 2169-3536. S2CID 226293635.
^ Mittal, A.; Soundararajan, R.; Bovik, AC (marzo de 2013). "Hacer un analizador de calidad de imagen" completamente ciego "". Cartas de procesamiento de señales IEEE . 20 (3): 209–212. Código Bib : 2013ISPL...20..209M. doi :10.1109/lsp.2012.2227726. S2CID 16892725.
^ Mittal, A.; Moorthy, Alaska; Bovik, AC (9 de noviembre de 2011). "Evaluador de calidad espacial de imágenes ciego/sin referencia". Acta de la Conferencia de 2011 de la Cuadragésima Quinta Conferencia de Asilomar sobre Señales, Sistemas y Computadoras (ASILOMAR) . págs. 723–727. doi :10.1109/acssc.2011.6190099. ISBN978-1-4673-0323-1. S2CID 16388844.
^ Saad, MA; Bovik, AC; Charrier, C. (marzo de 2014). "Predicción ciega de la calidad del vídeo natural". Transacciones IEEE sobre procesamiento de imágenes . 23 (3): 1352-1365. Código Bib : 2014ITIP...23.1352S. CiteSeerX 10.1.1.646.9045 . doi :10.1109/tip.2014.2299154. ISSN 1057-7149. PMID 24723532. S2CID 14314450.
^ Liu, Tsung-Jung; Lin, Yu-Chieh; Lin, Weisi; Kuo, C.-C. Arrendajo (2013). "Evaluación de la calidad visual: desarrollos recientes, aplicaciones de codificación y tendencias futuras". Transacciones APSIPA sobre procesamiento de señales e información . 2 . doi : 10.1017/atsip.2013.5 . hdl : 10356/106287 . ISSN 2048-7703.
^ Blog, Tecnología Netflix (6 de junio de 2016). "Hacia una métrica práctica de calidad de vídeo perceptual". Blog tecnológico de Netflix . Consultado el 8 de octubre de 2017 .
^ Blog, Tecnología Netflix (26 de octubre de 2018). "VMAF: el viaje continúa". Medio . Consultado el 23 de octubre de 2019 .
^ "Adaptación por escena: más allá de la tasa de bits". Bitmovin . 2018-01-05 . Consultado el 23 de octubre de 2019 .
^ Kumaras, H.; Kourtis, A.; Martakos, D.; Lauterjung, J. (1 de septiembre de 2007). "Evaluación cuantificada de PQoS basada en una estimación rápida del nivel de actividad espacial y temporal". Herramientas y aplicaciones multimedia . 34 (3): 355–374. doi :10.1007/s11042-007-0111-1. ISSN 1380-7501. S2CID 14136479.
Otras lecturas
Recomendaciones del UIT-R sobre calidad de vídeo subjetiva
Recomendaciones del UIT-T sobre calidad de vídeo objetiva y subjetiva