stringtranslate.com

Fidelidad de la información visual

La fidelidad de la información visual ( VIF ) es un índice de evaluación de calidad de imagen de referencia completo basado en estadísticas de escenas naturales y la noción de información de imagen extraída por el sistema visual humano . [1] Fue desarrollado por Hamid R Sheikh y Alan Bovik en el Laboratorio de Ingeniería de Imagen y Video (LIVE) en la Universidad de Texas en Austin en 2006. Se implementa en el núcleo del sistema de monitoreo de calidad de video VMAF de Netflix , que controla la calidad de imagen de todos los videos codificados transmitidos por Netflix.

Descripción general del modelo

Las imágenes y los vídeos de los entornos visuales tridimensionales proceden de una clase común: la clase de escenas naturales. Las escenas naturales proceden de un subespacio minúsculo en el espacio de todas las señales posibles, y los investigadores han desarrollado modelos sofisticados para caracterizar estas estadísticas. La mayoría de los procesos de distorsión del mundo real alteran estas estadísticas y hacen que las señales de imagen o vídeo no sean naturales. El índice VIF emplea modelos estadísticos de escenas naturales (NSS) junto con un modelo de distorsión (canal) para cuantificar la información compartida entre la prueba y las imágenes de referencia. Además, el índice VIF se basa en la hipótesis de que esta información compartida es un aspecto de la fidelidad que se relaciona bien con la calidad visual. A diferencia de los enfoques anteriores basados ​​en la sensibilidad a los errores del sistema visual humano (HVS) y la medición de la estructura, [2] este enfoque estadístico utilizado en un entorno de teoría de la información produce un método de evaluación de la calidad (QA) de referencia (FR) completo que no depende de ningún HVS o parámetro de geometría de visualización, ni de ninguna constante que requiera optimización, y sin embargo es competitivo con los métodos de QA de última generación. [3]

En concreto, la imagen de referencia se modela como la salida de una fuente "natural" estocástica que pasa por el canal HVS y es procesada posteriormente por el cerebro. El contenido de información de la imagen de referencia se cuantifica como la información mutua entre la entrada y la salida del canal HVS. Esta es la información que el cerebro podría extraer idealmente de la salida del HVS. La misma medida se cuantifica a continuación en presencia de un canal de distorsión de la imagen que distorsiona la salida de la fuente natural antes de que pase por el canal HVS, midiendo así la información que el cerebro podría extraer idealmente de la imagen de prueba. Esto se muestra gráficamente en la Figura 1. Las dos medidas de información se combinan a continuación para formar una medida de fidelidad de la información visual que relaciona la calidad visual con la información relativa de la imagen.

Figura 1

Modelo de sistema

Modelo fuente

Se utiliza una mezcla de escala gaussiana (GSM) para modelar estadísticamente los coeficientes wavelet de una descomposición piramidal orientable de una imagen. [4] El modelo se describe a continuación para una subbanda dada de la descomposición multiescala multiorientación y se puede extender a otras subbandas de manera similar. Sean los coeficientes wavelet en una subbanda dada donde denota el conjunto de índices espaciales a través de la subbanda y cada uno es un vector dimensional . La subbanda se divide en bloques no superpuestos de coeficientes cada uno, donde cada bloque corresponde a . Según el modelo GSM, donde es un escalar positivo y es un vector gaussiano con media cero y covarianza . Además, se supone que los bloques no superpuestos son independientes entre sí y que el campo aleatorio es independiente de .

Modelo de distorsión

El proceso de distorsión se modela utilizando una combinación de atenuación de señal y ruido aditivo en el dominio wavelet . Matemáticamente, si denota el campo aleatorio de una subbanda dada de la imagen distorsionada, es un campo escalar determinista y , donde es un vector gaussiano de media cero con covarianza , entonces

Además, se modela para ser independiente de y .

Modelo HVS

La dualidad de los modelos HVS y NSS implica que varios aspectos del HVS ya se han tenido en cuenta en el modelo fuente. Aquí, el HVS se modela adicionalmente en base a la hipótesis de que la incertidumbre en la percepción de señales visuales limita la cantidad de información que se puede extraer de la fuente y la imagen distorsionada. Esta fuente de incertidumbre se puede modelar como ruido visual en el modelo HVS. En particular, el ruido HVS en una subbanda dada de la descomposición wavelet se modela como ruido gaussiano blanco aditivo. Sean y campos aleatorios, donde y son vectores gaussianos de media cero con covarianza y . Además, sea y la señal visual en la salida del HVS. Matemáticamente, tenemos y . Nótese que y son campos aleatorios que son independientes de , y .

Índice VIF

Sea el vector de todos los bloques de una subbanda dada. Sea y se definen de manera similar. Sea la estimación de máxima verosimilitud de y dadas . La cantidad de información extraída de la referencia se obtiene como

Mientras que la cantidad de información extraída de la imagen de prueba se da como

Denotando los bloques en subbanda de la descomposición wavelet por , y de manera similar para las otras variables, el índice VIF se define como

Actuación

El coeficiente de correlación de orden de rango de Spearman (SROCC) entre los puntajes del índice VIF de imágenes distorsionadas en la base de datos de evaluación de calidad de imagen LIVE y los puntajes de opinión humana correspondientes se evalúa en 0,96. [ cita requerida ]

Referencias

  1. ^ Sheikh, Hamid; Bovik, Alan (2006). "Información de la imagen y calidad visual". IEEE Transactions on Image Processing . 15 (2): 430–444. Bibcode :2006ITIP...15..430S. doi :10.1109/tip.2005.859378. PMID  16479813.
  2. ^ Wang, Zhou; Bovik, Alan; Sheikh, Hamid; Simoncelli, Eero (2004). "Evaluación de la calidad de la imagen: desde la visibilidad del error hasta la similitud estructural". IEEE Transactions on Image Processing . 13 (4): 600–612. Bibcode :2004ITIP...13..600W. doi :10.1109/tip.2003.819861. PMID  15376593. S2CID  207761262.
  3. ^ Sheikh, Hamid R. "Información de la imagen y calidad visual". Universidad de Texas . Consultado el 15 de abril de 2024 .
  4. ^ Simoncelli, Eero; Freeman, William (1995). "La pirámide orientable: una arquitectura flexible para el cálculo de derivadas en múltiples escalas". Actas de la Conferencia Internacional sobre Procesamiento de Imágenes . Vol. 3. págs. 444–447. doi :10.1109/ICIP.1995.537667. ISBN. 0-7803-3122-2.S2CID 1099364  .

Enlaces externos