La calidad de video es una característica de un video que pasa a través de un sistema de transmisión o procesamiento de video que describe la degradación percibida del video (generalmente en comparación con el video original). Los sistemas de procesamiento de video pueden introducir cierta cantidad de distorsión o artefactos en la señal de video que afectan negativamente la percepción del sistema por parte del usuario. Para muchas partes interesadas en la producción y distribución de video, garantizar la calidad del video es una tarea importante.
La evaluación de la calidad de un vídeo se realiza para describir la calidad de un conjunto de secuencias de vídeo en estudio. La calidad del vídeo se puede evaluar de forma objetiva (mediante modelos matemáticos ) o subjetiva (pidiéndoles a los usuarios su calificación). Además, la calidad de un sistema se puede determinar fuera de línea (es decir, en un entorno de laboratorio para desarrollar nuevos códecs o servicios) o en servicio (para supervisar y garantizar un determinado nivel de calidad).
Del vídeo analógico al digital
Desde que se grabó y transmitió la primera secuencia de vídeo del mundo, se han diseñado muchos sistemas de procesamiento de vídeo. Estos sistemas codifican secuencias de vídeo y las transmiten a través de varios tipos de redes o canales. En la era de los sistemas de vídeo analógicos , era posible evaluar los aspectos de calidad de un sistema de procesamiento de vídeo calculando la respuesta de frecuencia del sistema utilizando señales de prueba (por ejemplo, una colección de barras y círculos de color).
Los sistemas de vídeo digital han sustituido casi por completo a los analógicos y los métodos de evaluación de calidad han cambiado. El rendimiento de un sistema de procesamiento y transmisión de vídeo digital puede variar significativamente y depende de muchos factores, incluidas las características de la señal de vídeo de entrada (por ejemplo, la cantidad de movimiento o los detalles espaciales), las configuraciones utilizadas para la codificación y la transmisión, y la fidelidad del canal o el rendimiento de la red .
Calidad de video objetiva
Los modelos objetivos de calidad de video son modelos matemáticos que aproximan los resultados de la evaluación subjetiva de la calidad , en la que se pide a los observadores humanos que califiquen la calidad de un video. [1] En este contexto, el término modelo puede referirse a un modelo estadístico simple en el que varias variables independientes (por ejemplo, la tasa de pérdida de paquetes en una red y los parámetros de codificación de video) se ajustan a los resultados obtenidos en una prueba de evaluación de calidad subjetiva utilizando técnicas de regresión . Un modelo también puede ser un algoritmo más complicado implementado en software o hardware .
Terminología
Los términos modelo y métrica se utilizan a menudo indistintamente en el campo para referirse a una estadística descriptiva que proporciona un indicador de calidad. El término “objetivo” se refiere al hecho de que, en general, los modelos de calidad se basan en criterios que se pueden medir objetivamente, es decir, libres de interpretación humana. Pueden evaluarse automáticamente mediante un programa informático . A diferencia de un panel de observadores humanos, un modelo objetivo siempre debería generar de manera determinista la misma puntuación de calidad para un conjunto determinado de parámetros de entrada.
Los modelos objetivos de calidad también se denominan a veces modelos instrumentales (de calidad) [2] [3] para enfatizar su aplicación como instrumentos de medición. Algunos autores sugieren que el término “objetivo” es engañoso, ya que “implica que las mediciones instrumentales tienen objetividad, lo que solo tienen en los casos en que pueden generalizarse”. [4]
Clasificación de modelos objetivos de calidad de vídeo
Los modelos objetivos se pueden clasificar según la cantidad de información disponible sobre la señal original, la señal recibida o si hay alguna señal presente: [5]
Métodos de referencia completa (FR): los modelos FR calculan la diferencia de calidad comparando la señal de video original con la señal de video recibida . Por lo general, cada píxel de la fuente se compara con el píxel correspondiente en el video recibido, sin conocimiento sobre el proceso de codificación o transmisión intermedio. Los algoritmos más elaborados pueden optar por combinar la estimación basada en píxeles con otros enfoques, como los que se describen a continuación. Los modelos FR suelen ser los más precisos, a expensas de un mayor esfuerzo computacional. Como requieren la disponibilidad del video original antes de la transmisión o codificación, no se pueden usar en todas las situaciones (por ejemplo, cuando la calidad se mide desde un dispositivo cliente).
Métodos de Referencia Reducida (RR): Los modelos RR extraen algunas características de ambos vídeos y las comparan para obtener una puntuación de calidad. Se utilizan cuando no se dispone de todo el vídeo original o cuando sería prácticamente imposible hacerlo, por ejemplo, en una transmisión con un ancho de banda limitado. Esto los hace más eficientes que los modelos FR a costa de una menor precisión.
Métodos sin referencia (NR): los modelos NR intentan evaluar la calidad de un video distorsionado sin ninguna referencia a la señal original. Debido a la ausencia de una señal original, pueden ser menos precisos que los métodos FR o RR, pero son más eficientes para calcular. El Video Quality Experts Group tiene un grupo de trabajo dedicado al desarrollo de métricas sin referencia (llamado NORM).
Métodos basados en píxeles (NR-P): los modelos basados en píxeles utilizan una representación decodificada de la señal y analizan la calidad en función de la información de los píxeles. Algunos de estos evalúan únicamente tipos de degradación específicos, como el desenfoque u otros artefactos de codificación .
Métodos paramétricos/de flujo de bits (NR-B): estos modelos hacen uso de características extraídas del contenedor de transmisión y/o del flujo de bits de video, por ejemplo, encabezados de paquetes MPEG-TS , vectores de movimiento y parámetros de cuantificación. No tienen acceso a la señal original y no requieren decodificación del video, lo que los hace más eficientes. A diferencia de los modelos NR-P, no tienen acceso a la señal decodificada final. En algunos casos, la precisión de predicción de las métricas basadas en flujo de bits puede alcanzar una referencia completa sin requerir una referencia. [6]
Métodos híbridos (NR-PB híbrido): Los modelos híbridos combinan parámetros extraídos del flujo de bits con una señal de vídeo decodificada. [7] Por lo tanto, son una mezcla entre los modelos NR-P y NR-B.
Uso de modelos de calidad de imagen para la estimación de la calidad del vídeo
Algunos modelos que se utilizan para la evaluación de la calidad de vídeo (como PSNR o SSIM ) son simplemente modelos de calidad de imagen , cuyo resultado se calcula para cada fotograma de una secuencia de vídeo. Shahid et al. también han presentado una descripción general de los modelos de calidad de imagen sin referencia recientes en un artículo de revista [5] .
La medida de calidad de cada fotograma de un vídeo (determinada por un modelo de calidad de imagen) se puede registrar y agrupar a lo largo del tiempo para evaluar la calidad de una secuencia de vídeo completa. Si bien este método es fácil de implementar, no tiene en cuenta ciertos tipos de degradaciones que se desarrollan con el tiempo, como los artefactos de movimiento causados por la pérdida de paquetes y su ocultamiento . Un modelo de calidad de vídeo que tenga en cuenta los aspectos temporales de las degradaciones de calidad, como VQM o el índice MOVIE , puede ser capaz de producir predicciones más precisas de la calidad percibida por los humanos.
Artefactos en la calidad del video
La estimación de artefactos visuales es una técnica bien conocida para estimar la calidad general del video. La mayoría de estos artefactos son artefactos de compresión causados por la compresión con pérdida. Algunos de los atributos que normalmente se estiman mediante métricas basadas en píxeles incluyen:
Espacial
Desenfoque : resultado de la pérdida de detalles de imágenes de alta frecuencia espacial, generalmente en los bordes nítidos.
Bloqueo : es causado por múltiples algoritmos debido a la representación interna de una imagen con bloques de tamaño 8, 16 o 32. Con parámetros específicos, pueden promediar los píxeles dentro de un bloque haciendo que los bloques sean distintos.
Sonido zumbador , eco o efecto fantasma: toma la forma de un “halo”, una banda o un “fantasma” cerca de bordes afilados.
Sangrado de color : ocurre cuando los bordes de un color en la imagen se desangran o se superponen involuntariamente con otro color.
Ruido de escalera : es un caso especial de bloqueo a lo largo de un borde diagonal o curvo. En lugar de suavizarse, adquiere la apariencia de escalones de escalera.
Temporal
Parpadeo : generalmente se trata de cambios frecuentes de brillo o color a lo largo del tiempo. Suele dividirse en parpadeo de grano fino y parpadeo de grano grueso.
Ruido de mosquito : una variante del parpadeo, se caracteriza por neblina y/o brillo alrededor de contenido de alta frecuencia (transiciones nítidas entre entidades en primer plano y el fondo o bordes duros).
Flotante : se refiere al movimiento ilusorio en ciertas regiones mientras las áreas circundantes permanecen estáticas. Visualmente, estas regiones parecen flotar sobre el fondo circundante.
La sacudida o vibración es el movimiento irregular o inestable que se percibe debido al muestreo de fotogramas. Suele deberse a la conversión de películas de 24 fps a un formato de vídeo de 30 o 60 fps.
Ejemplos de métricas de calidad de video
En esta sección se enumeran ejemplos de métricas de calidad de vídeo.
Evaluación de la formación y el desempeño
Dado que se espera que los modelos objetivos de calidad de video predigan los resultados proporcionados por los observadores humanos, se desarrollan con la ayuda de resultados de pruebas subjetivas . Durante el desarrollo de un modelo objetivo, sus parámetros deben entrenarse para lograr la mejor correlación entre los valores pronosticados objetivamente y las puntuaciones subjetivas, a menudo disponibles como puntuaciones de opinión media (MOS).
Los materiales de prueba subjetivos más utilizados son de dominio público e incluyen imágenes fijas, películas, video en tiempo real, alta definición, 3-D (estereoscópico) y conjuntos de datos relacionados con la calidad de imagen para propósitos especiales. [18] Estas denominadas bases de datos son creadas por varios laboratorios de investigación en todo el mundo. Algunas de ellas se han convertido en estándares de facto, incluidas varias bases de datos de calidad de imagen subjetiva de dominio público creadas y mantenidas por el Laboratorio de Ingeniería de Imagen y Video (LIVE), así como la Base de Datos de Imágenes de Tampere 2008. Se puede encontrar una colección de bases de datos en el repositorio de bases de datos QUALINET. La Biblioteca de Video Digital para el Consumidor (CDVL) alberga secuencias de prueba de video disponibles de forma gratuita para el desarrollo de modelos.
Algunas bases de datos también proporcionan puntuaciones métricas calculadas previamente para permitir que otros comparen las métricas nuevas con las existentes. Se pueden ver ejemplos en la siguiente tabla
En teoría, un modelo se puede entrenar con un conjunto de datos de tal manera que produzca puntuaciones que coincidan perfectamente con ese conjunto de datos. Sin embargo, un modelo de este tipo se entrenará en exceso y, por lo tanto, no tendrá un buen rendimiento con nuevos conjuntos de datos. Por lo tanto, se recomienda validar los modelos con nuevos datos y utilizar el rendimiento resultante como un indicador real de la precisión de predicción del modelo.
Los modelos objetivos de calidad de video se pueden utilizar en varias áreas de aplicación. En el desarrollo de códecs de video , el rendimiento de un códec a menudo se evalúa en términos de PSNR o SSIM. Para los proveedores de servicios, los modelos objetivos se pueden utilizar para monitorear un sistema. Por ejemplo, un proveedor de IPTV puede optar por monitorear la calidad de su servicio por medio de modelos objetivos, en lugar de preguntar a los usuarios su opinión o esperar quejas de los clientes sobre la mala calidad del video. Pocos de estos estándares han encontrado aplicaciones comerciales, incluidos PEVQ y VQuad-HD . SSIM también es parte de un conjunto de herramientas de calidad de video disponible comercialmente (SSIMWAVE). VMAF es utilizado por Netflix para ajustar sus algoritmos de codificación y transmisión, y para controlar la calidad de todo el contenido transmitido. [19] [20] También lo utilizan otras empresas de tecnología como Bitmovin [21] y se ha integrado en software como FFmpeg .
Un modelo objetivo solo debe utilizarse en el contexto para el que fue desarrollado. Por ejemplo, no se garantiza que un modelo desarrollado con un códec de vídeo determinado sea preciso para otro códec de vídeo. De manera similar, un modelo entrenado con pruebas realizadas en una pantalla de televisión grande no debe utilizarse para evaluar la calidad de un vídeo visto en un teléfono móvil.
Otros enfoques
Al estimar la calidad de un códec de vídeo, todos los métodos objetivos mencionados pueden requerir la repetición de pruebas posteriores a la codificación para determinar los parámetros de codificación que satisfacen un nivel requerido de calidad visual, lo que hace que su implementación en aplicaciones comerciales reales sea lenta, compleja y poco práctica. Se están realizando investigaciones para desarrollar nuevos métodos de evaluación objetiva que permitan predecir el nivel de calidad percibido del vídeo codificado antes de que se realice la codificación real. [22]
Calidad de video subjetiva
El objetivo principal de las métricas de calidad de vídeo multiobjetivo es estimar automáticamente la opinión media del usuario (espectador) sobre la calidad de un vídeo procesado por un sistema. Los procedimientos para las mediciones subjetivas de la calidad de vídeo se describen en la recomendación BT.500 de la UIT-R y en la recomendación P.910 de la UIT-T. En dichas pruebas, se muestran secuencias de vídeo a un grupo de espectadores. La opinión de los espectadores se registra y se promedia para obtener la puntuación media de opinión para evaluar la calidad de cada secuencia de vídeo. Sin embargo, el procedimiento de prueba puede variar según el tipo de sistema que se pruebe.
Herramientas para la evaluación de la calidad del vídeo
^ "Métodos objetivos de evaluación de la calidad del vídeo para el sistema de arbitraje asistente de vídeo (VAR)" (PDF) .
^ Raake, Alexander (2006). Calidad de voz de VoIP: evaluación y predicción . Wiley InterScience (servicio en línea). Chichester, Inglaterra: Wiley. ISBN9780470030608.OCLC 85785040 .
^ Möller, Sebastian (2000). Evaluación y predicción de la calidad del habla en las telecomunicaciones . Boston, MA: Springer US. ISBN9781475731170.OCLC 851800613 .
^ Raake, Alexander; Egger, Sebastian (2014). Calidad de la experiencia . Serie T-Labs en servicios de telecomunicaciones. Springer, Cham. pp. 11–33. doi :10.1007/978-3-319-02681-7_2. ISBN9783319026800.
^ ab Shahid, Muhammad; Rossholm, Andreas; Lövström, Benny; Zepernick, Hans-Jürgen (14 de agosto de 2014). "Evaluación de la calidad de imágenes y vídeos sin referencia: una clasificación y revisión de los enfoques recientes". Revista EURASIP sobre procesamiento de imágenes y vídeos . 2014 : 40. doi : 10.1186/1687-5281-2014-40 . ISSN 1687-5281.
^ Barman, Nabajeet; Reznik, Yuriy; Martini, Maria G. (2023). "Un conjunto de datos subjetivos para aplicaciones de transmisión de video en múltiples pantallas". arXiv : 2305.03138 [cs.MM].
^ Lee, Seon-Oh; Jung, Kwang-Su; Sim, Dong-Gyu (2010). "Evaluación objetiva de la calidad en tiempo real basada en parámetros de codificación extraídos de un flujo de bits H.264/AVC". IEEE Transactions on Consumer Electronics . 56 (2): 1071–1078. doi :10.1109/TCE.2010.5506041. S2CID 23190244.
^ Wang, Zhou; Bovik, AC; Sheikh, HR; Simoncelli, EP (1 de abril de 2004). "Evaluación de la calidad de la imagen: desde la visibilidad del error hasta la similitud estructural". IEEE Transactions on Image Processing . 13 (4): 600–612. Bibcode :2004ITIP...13..600W. CiteSeerX 10.1.1.2.5689 . doi :10.1109/TIP.2003.819861. ISSN 1057-7149. PMID 15376593. S2CID 207761262.
^ Seshadrinathan, K.; Bovik, AC (1 de febrero de 2010). "Evaluación de la calidad espacio-temporal de vídeos naturales ajustada al movimiento". IEEE Transactions on Image Processing . 19 (2): 335–350. Bibcode :2010ITIP...19..335S. CiteSeerX 10.1.1.153.9018 . doi :10.1109/TIP.2009.2034992. ISSN 1057-7149. PMID 19846374. S2CID 15356687.
^ vmaf: Evaluación de la calidad de video perceptual basada en la fusión de múltiples métodos, Netflix, Inc., 2017-07-14 , consultado el 2017-07-15
^ "Descripción del software de medición de calidad de video (VQM) - ITS". its.ntia.gov . Consultado el 12 de julio de 2023 .
^ Kourtis, M.-A.; Koumaras, H.; Liberal, F. (julio-agosto de 2016). "Evaluación de la calidad de video de referencia reducida utilizando un patrón de video estático". Journal of Electronic Imaging . 25 (4): 043011. Bibcode :2016JEI....25d3011K. doi : 10.1117/1.jei.25.4.043011 .
^ Soundararajan, R.; Bovik, AC (4 de abril de 2013). "Evaluación de la calidad de video mediante diferenciación entrópica espacio-temporal de referencia reducida". IEEE Transactions on Circuits and Systems for Video Technology . 23 (4): 684–694. doi :10.1109/tcsvt.2012.2214933. S2CID 206661510.
^ abc Raake, Alexander; Borer, Silvio; Satti, Shahid M.; Gustafsson, Jorgen; Rao, Rakesh Rao Ramachandra; Medagli, Stefano; List, Peter; Goring, Steve; Lindero, David; Robitza, Werner; Heikkila, Gunnar; Broom, Simon; Schmidmer, Christian; Feiten, Bernhard; Wustenhagen, Ulf (2020). "Estándar multimodelo para la evaluación de la calidad de vídeo basada en flujo de bits, píxeles e híbrida de UHD/4K: ITU-T P.1204". IEEE Access . 8 : 193020–193049. doi : 10.1109/ACCESS.2020.3032080 . ISSN 2169-3536. S2CID 226293635.
^ Mittal, A.; Soundararajan, R.; Bovik, AC (marzo de 2013). "Fabricación de un analizador de calidad de imagen "completamente ciego"". IEEE Signal Processing Letters . 20 (3): 209–212. Bibcode :2013ISPL...20..209M. doi :10.1109/lsp.2012.2227726. S2CID 16892725.
^ Mittal, A.; Moorthy, AK; Bovik, AC (9 de noviembre de 2011). "Evaluador de calidad espacial de imágenes ciego/sin referencia". Acta de la conferencia de 2011 de la cuadragésima quinta conferencia de Asilomar sobre señales, sistemas y computadoras (ASILOMAR) . págs. 723–727. doi :10.1109/acssc.2011.6190099. ISBN978-1-4673-0323-1. Número de identificación del sujeto 16388844.
^ Saad, MA; Bovik, AC; Charrier, C. (marzo de 2014). "Predicción a ciegas de la calidad natural del vídeo". IEEE Transactions on Image Processing . 23 (3): 1352–1365. Bibcode :2014ITIP...23.1352S. CiteSeerX 10.1.1.646.9045 . doi :10.1109/tip.2014.2299154. ISSN 1057-7149. PMID 24723532. S2CID 14314450.
^ Liu, Tsung-Jung; Lin, Yu-Chieh; Lin, Weisi; Kuo, C.-C. Jay (2013). "Evaluación de la calidad visual: desarrollos recientes, aplicaciones de codificación y tendencias futuras". Transacciones APSIPA sobre procesamiento de señales e información . 2 . doi : 10.1017/atsip.2013.5 . hdl : 10356/106287 . ISSN 2048-7703.
^ Blog, Netflix Technology (6 de junio de 2016). "Hacia una métrica práctica de calidad de video perceptual". Blog de tecnología de Netflix . Consultado el 8 de octubre de 2017 .
^ Blog, Netflix Technology (26 de octubre de 2018). "VMAF: El viaje continúa". Medium . Consultado el 23 de octubre de 2019 .
^ "Adaptación por escena: más allá de la tasa de bits". Bitmovin . 2018-01-05 . Consultado el 2019-10-23 .
^ Koumaras, H.; Kourtis, A.; Martakos, D.; Lauterjung, J. (1 de septiembre de 2007). "Evaluación cuantificada de PQoS basada en una estimación rápida del nivel de actividad espacial y temporal". Herramientas y aplicaciones multimedia . 34 (3): 355–374. doi :10.1007/s11042-007-0111-1. ISSN 1380-7501. S2CID 14136479.
Lectura adicional
Recomendaciones de la UIT-R sobre la calidad subjetiva del vídeo
Recomendaciones de la UIT-T sobre calidad de vídeo objetiva y subjetiva