Predicción de la calidad del vídeo digital
El índice de similitud estructural ( SSIM ) es un método para predecir la calidad percibida de imágenes de televisión digital y cinematográficas, así como otros tipos de imágenes y vídeos digitales. También se utiliza para medir la similitud entre dos imágenes. El índice SSIM es una métrica de referencia completa ; en otras palabras, la medición o predicción de la calidad de la imagen se basa en una imagen inicial sin comprimir o sin distorsión como referencia.
SSIM es un modelo basado en la percepción que considera la degradación de la imagen como un cambio percibido en la información estructural , al mismo tiempo que incorpora fenómenos perceptivos importantes, incluidos los términos de enmascaramiento de luminancia y enmascaramiento de contraste. La diferencia con otras técnicas como MSE o PSNR es que estos enfoques estiman errores absolutos . La información estructural es la idea de que los píxeles tienen fuertes interdependencias, especialmente cuando están espacialmente cerca. Estas dependencias llevan información importante sobre la estructura de los objetos en la escena visual. El enmascaramiento de luminancia es un fenómeno por el cual las distorsiones de la imagen (en este contexto) tienden a ser menos visibles en regiones brillantes, mientras que el enmascaramiento de contraste es un fenómeno por el cual las distorsiones se vuelven menos visibles donde hay actividad significativa o "textura" en la imagen.
Historia
El predecesor de SSIM se llamó Índice de Calidad Universal (UQI), o Índice Wang-Bovik , que fue desarrollado por Zhou Wang y Alan Bovik en 2001. Este evolucionó, a través de su colaboración con Hamid Sheikh y Eero Simoncelli , en la versión actual de SSIM, que se publicó en abril de 2004 en IEEE Transactions on Image Processing . [1] Además de definir el índice de calidad SSIM, el documento proporciona un contexto general para desarrollar y evaluar medidas de calidad perceptiva, incluidas las conexiones con la neurobiología visual y la percepción humana, y la validación directa del índice contra las calificaciones de sujetos humanos.
El modelo básico se desarrolló en el Laboratorio de Ingeniería de Imágenes y Vídeo (LIVE) de la Universidad de Texas en Austin y se desarrolló en colaboración con el Laboratorio de Visión Computacional (LCV) de la Universidad de Nueva York . Se han desarrollado otras variantes del modelo en el Laboratorio de Computación Visual e Imágenes de la Universidad de Waterloo y se han comercializado.
Posteriormente, SSIM encontró una fuerte adopción en la comunidad de procesamiento de imágenes y en las industrias de la televisión y las redes sociales. El artículo SSIM de 2004 ha sido citado más de 50.000 veces según Google Scholar , [2] lo que lo convierte en uno de los artículos más citados en los campos de procesamiento de imágenes e ingeniería de video. Fue reconocido con el Premio al Mejor Artículo de la IEEE Signal Processing Society en 2009. [3] También recibió el Premio al Impacto Sustentable de la IEEE Signal Processing Society en 2016, lo que indica que un artículo tiene un impacto inusualmente alto durante al menos 10 años después de su publicación. Debido a su alta adopción por parte de la industria de la televisión, los autores del artículo SSIM original recibieron un Premio Primetime Engineering Emmy en 2015 de la Academia de Televisión .
Algoritmo
El índice SSIM se calcula en varias ventanas de una imagen. La medida entre dos ventanas y de tamaño común es: [4]
con:
- la media de la muestra de píxeles de ;
- la media de la muestra de píxeles de ;
- la varianza de ;
- la varianza de ;
- la covarianza de y ;
- , dos variables para estabilizar la división con denominador débil;
- el rango dinámico de los valores de los píxeles (normalmente es );
- y por defecto.
Componentes de la fórmula
La fórmula SSIM se basa en tres mediciones de comparación entre las muestras de y : luminancia ( ), contraste ( ) y estructura ( ). Las funciones de comparación individuales son: [4]
con, además de las definiciones anteriores:
SSIM es entonces una combinación ponderada de esas medidas comparativas:
Estableciendo los pesos en 1, la fórmula se puede reducir a la forma que se muestra arriba.
Propiedades matemáticas
SSIM satisface la identidad de indiscernibles y las propiedades de simetría, pero no la desigualdad triangular o la no negatividad, y por lo tanto no es una función de distancia . Sin embargo, bajo ciertas condiciones, SSIM se puede convertir a una medida de raíz MSE normalizada, que es una función de distancia. [5] El cuadrado de dicha función no es convexo, pero es localmente convexo y cuasiconvexo , [5] lo que hace que SSIM sea un objetivo factible para la optimización.
Aplicación de la fórmula
Para evaluar la calidad de la imagen, esta fórmula se aplica generalmente solo en luma , aunque también se puede aplicar en valores de color (p. ej., RGB ) o cromáticos (p. ej., YCbCr ). El índice SSIM resultante es un valor decimal entre -1 y 1, donde 1 indica similitud perfecta, 0 indica que no hay similitud y -1 indica anticorrelación perfecta. Para una imagen, normalmente se calcula utilizando una ventana gaussiana deslizante de tamaño 11x11 o una ventana de bloque de tamaño 8x8. La ventana se puede desplazar píxel por píxel en la imagen para crear un mapa de calidad SSIM de la imagen. En el caso de la evaluación de la calidad del vídeo, [6] los autores proponen utilizar solo un subgrupo de las posibles ventanas para reducir la complejidad del cálculo.
Variantes
SSIM multiescala
Una forma más avanzada de SSIM, denominada SSIM multiescala (MS-SSIM) [4] , se lleva a cabo en múltiples escalas a través de un proceso de múltiples etapas de submuestreo, que recuerda al procesamiento multiescala en el sistema de visión inicial. Se ha demostrado que funciona igual o mejor que SSIM en diferentes bases de datos de imágenes y videos subjetivos. [4] [7] [8]
SSIM multicomponente
El SSIM de tres componentes (3-SSIM) es una forma de SSIM que tiene en cuenta el hecho de que el ojo humano puede ver diferencias con mayor precisión en regiones texturizadas o con bordes que en regiones lisas. [9] La métrica resultante se calcula como un promedio ponderado de SSIM para tres categorías de regiones: bordes, texturas y regiones lisas. La ponderación propuesta es 0,5 para los bordes y 0,25 para las regiones texturizadas y lisas. Los autores mencionan que una ponderación 1/0/0 (ignorando todo excepto las distorsiones de los bordes) conduce a resultados que se acercan más a las calificaciones subjetivas. Esto sugiere que las regiones de los bordes juegan un papel dominante en la percepción de la calidad de la imagen.
Los autores de 3-SSIM también han ampliado el modelo aSSIM de cuatro componentes (4-SSIM). Los tipos de aristas se subdividen a su vez en aristas conservadas y modificadas según su estado de distorsión. La ponderación propuesta es de 0,25 para los cuatro componentes. [10]
Disimilitud estructural
La disimilitud estructural (DSSIM) puede derivarse de SSIM, aunque no constituye una función de distancia ya que la desigualdad triangular no se satisface necesariamente.
Métricas de calidad de vídeo y variantes temporales
Cabe señalar que la versión original de SSIM fue diseñada para medir la calidad de imágenes fijas. No contiene ningún parámetro directamente relacionado con los efectos temporales de la percepción y el juicio humanos. [7] Una práctica común es calcular el valor SSIM promedio para todos los fotogramas de la secuencia de video. Sin embargo, se han desarrollado varias variantes temporales de SSIM. [11] [6] [12]
SSIM de wavelets complejos
La variante de transformada wavelet compleja del SSIM (CW-SSIM) está diseñada para abordar problemas de escalado, traslación y rotación de imágenes. En lugar de otorgar puntuaciones bajas a las imágenes con dichas condiciones, el CW-SSIM aprovecha la transformada wavelet compleja y, por lo tanto, otorga puntuaciones más altas a dichas imágenes. El CW-SSIM se define de la siguiente manera:
Donde es la transformada wavelet compleja de la señal y es la transformada wavelet compleja para la señal . Además, es un pequeño número positivo utilizado para fines de estabilidad de la función. Idealmente, debería ser cero. Al igual que el SSIM, el CW-SSIM tiene un valor máximo de 1. El valor máximo de 1 indica que las dos señales son perfectamente similares estructuralmente, mientras que un valor de 0 indica que no hay similitud estructural. [13]
SIMPLUS
El índice SSIMPLUS se basa en SSIM y es una herramienta disponible comercialmente. [14] Amplía las capacidades de SSIM, principalmente para aplicaciones de vídeo de destino. Proporciona puntuaciones en el rango de 0 a 100, que se corresponden linealmente con las calificaciones subjetivas humanas. También permite adaptar las puntuaciones al dispositivo de visualización previsto, comparando vídeos en diferentes resoluciones y contenidos.
Según sus autores, SSIMPLUS logra una mayor precisión y velocidad que otras métricas de calidad de imagen y vídeo. Sin embargo, no se ha realizado ninguna evaluación independiente de SSIMPLUS, ya que el algoritmo en sí no está disponible públicamente.
cSSIM
Con el fin de investigar más a fondo el SSIM discreto estándar desde una perspectiva teórica, se introdujo y estudió el SSIM continuo (cSSIM) [15] en el contexto de la interpolación de funciones de base radial .
SIMULACRO
SSIMULACRA y SSIMULACRA2 son variantes de SSIM desarrolladas por Cloudinary con el objetivo de adaptarse a los datos de opinión subjetiva. Las variantes operan en el espacio de color XYB y combinan MS-SSIM con dos tipos de mapas de error asimétricos para el efecto de bloques/anillos y el efecto de suavizado/desenfoque, artefactos de compresión comunes. SSIMULACRA2 es parte de libjxl, la implementación de referencia de JPEG XL . [16] [17]
Otras modificaciones sencillas
La métrica de correlación cruzada r* se basa en las métricas de varianza de SSIM. Se define como r *( x , y ) = σxy/σxσy cuando σ x σ y ≠ 0 , 1 cuando ambas desviaciones estándar son cero, y 0 cuando solo una es cero. Se ha encontrado uso en el análisis de la respuesta humana a fantasmas de detalle de contraste. [18]
SSIM también se ha utilizado en el gradiente de imágenes, lo que lo convierte en "G-SSIM". G-SSIM es especialmente útil en imágenes borrosas. [19]
Las modificaciones anteriores se pueden combinar. Por ejemplo, 4-Gr* es una combinación de 4-SSIM, G-SSIM y r*. Puede reflejar la preferencia del radiólogo por las imágenes mucho mejor que otras variantes de SSIM probadas. [20]
Solicitud
SSIM tiene aplicaciones en una variedad de problemas diferentes. Algunos ejemplos son:
- Compresión de imágenes: En la compresión de imágenes con pérdida , la información se descarta deliberadamente para disminuir el espacio de almacenamiento de imágenes y videos. El MSE se utiliza típicamente en tales esquemas de compresión. Según sus autores, se sugiere utilizar SSIM en lugar de MSE para producir mejores resultados para las imágenes descomprimidas. [13]
- Restauración de imágenes: La restauración de imágenes se centra en resolver el problema de dónde está la imagen borrosa que se debe restaurar, cuál es el núcleo de desenfoque, cuál es el ruido aditivo y cuál es la imagen original que deseamos recuperar. El filtro tradicional que se utiliza para resolver este problema es el filtro de Wiener. Sin embargo, el diseño del filtro de Wiener se basa en el MSE. Se afirma que el uso de una variante de SSIM, específicamente Stat-SSIM, produce mejores resultados visuales, según los autores del algoritmo. [13]
- Reconocimiento de patrones: dado que SSIM imita aspectos de la percepción humana, podría utilizarse para reconocer patrones. Cuando se enfrentan problemas como el escalado, la traslación y la rotación de imágenes, los autores del algoritmo afirman que es mejor utilizar CW-SSIM, [21] que es insensible a estas variaciones y puede aplicarse directamente mediante la comparación de plantillas sin utilizar ninguna muestra de entrenamiento. Dado que los enfoques de reconocimiento de patrones basados en datos pueden producir un mejor rendimiento cuando hay una gran cantidad de datos disponibles para el entrenamiento, los autores sugieren utilizar CW-SSIM en enfoques basados en datos. [21]
Comparación de rendimiento
Debido a su popularidad, SSIM se compara a menudo con otras métricas, incluidas métricas más simples como MSE y PSNR, y otras métricas de calidad de imagen y video perceptuales . Se ha demostrado repetidamente que SSIM supera significativamente a MSE y sus derivados en precisión, incluida la investigación de sus propios autores y otros. [7] [22] [23] [24] [25] [26]
Un artículo de Dosselmann y Yang afirma que el rendimiento de SSIM es "mucho más cercano al de MSE" de lo que se suele suponer. Si bien no cuestionan la ventaja de SSIM sobre MSE, afirman que existe una dependencia analítica y funcional entre las dos métricas. [8] Según su investigación, se ha descubierto que SSIM se correlaciona tan bien como los métodos basados en MSE en bases de datos subjetivas distintas de las bases de datos de los creadores de SSIM. Como ejemplo, citan a Reibman y Poole, quienes descubrieron que MSE superó a SSIM en una base de datos que contenía video con pérdida de paquetes deteriorada. [27] En otro artículo, se identificó un vínculo analítico entre PSNR y SSIM. [28]
Véase también
Referencias
- ^ Wang, Zhou; Bovik, AC; Sheikh, HR; Simoncelli, EP (1 de abril de 2004). "Evaluación de la calidad de la imagen: desde la visibilidad del error hasta la similitud estructural". IEEE Transactions on Image Processing . 13 (4): 600–612. Bibcode :2004ITIP...13..600W. CiteSeerX 10.1.1.2.5689 . doi :10.1109/TIP.2003.819861. ISSN 1057-7149. PMID 15376593. S2CID 207761262.
- ^ "Google Scholar". scholar.google.com . Consultado el 4 de julio de 2019 .
- ^ "Sociedad de procesamiento de señales IEEE, premio al mejor artículo" (PDF) .
- ^ abcd Wang, Z.; Simoncelli, EP; Bovik, AC (1 de noviembre de 2003). "Similitud estructural multiescala para la evaluación de la calidad de la imagen". La 37.ª Conferencia Asilomar sobre señales, sistemas y computadoras, 2003. Vol. 2. págs. 1398–1402 Vol. 2. CiteSeerX 10.1.1.58.1939 . doi :10.1109/ACSSC.2003.1292216. ISBN . 978-0-7803-8104-9.S2CID60600316 .
- ^ ab Brunet, D.; Vass, J.; Vrscay, ER; Wang, Z. (abril de 2012). "Sobre las propiedades matemáticas del índice de similitud estructural" (PDF) . IEEE Transactions on Image Processing . 21 (4): 2324–2328. Bibcode :2012ITIP...21.1488B. doi :10.1109/TIP.2011.2173206. PMID 22042163. S2CID 13739220.
- ^ ab Wang, Z.; Lu, L.; Bovik, AC (febrero de 2004). "Evaluación de la calidad de vídeo basada en la medición de la distorsión estructural". Procesamiento de señales: comunicación de imágenes . 19 (2): 121–132. CiteSeerX 10.1.1.2.6330 . doi :10.1016/S0923-5965(03)00076-6.
- ^ abc Søgaard, Jacob; Krasula, Lukáš; Shahid, Muhammad; Temel, Dogancan; Brunnström, Kjell; Razaak, Manzoor (14 de febrero de 2016). "Aplicabilidad de las métricas objetivas existentes de calidad perceptual para la transmisión de video adaptativa" (PDF) . Imágenes electrónicas . 2016 (13): 1–7. doi :10.2352/issn.2470-1173.2016.13.iqsp-206. S2CID 26253431.
- ^ ab Dosselmann, Richard; Yang, Xue Dong (6 de noviembre de 2009). "Una evaluación integral del índice de similitud estructural". Procesamiento de señales, imágenes y vídeo . 5 (1): 81–91. doi :10.1007/s11760-009-0144-1. ISSN 1863-1703. S2CID 30046880.
- ^ Li, Chaofeng; Bovik, Alan Conrad (1 de enero de 2010). "Evaluación de la calidad de video ponderada por contenido utilizando un modelo de imagen de tres componentes". Journal of Electronic Imaging . 19 (1): 011003–011003–9. Bibcode :2010JEI....19a1003L. doi :10.1117/1.3267087. ISSN 1017-9909.
- ^ Li, Chaofeng; Bovik, Alan C. (agosto de 2010). "Índice de similitud estructural dividido por contenido para la evaluación de la calidad de la imagen". Procesamiento de señales: comunicación de imágenes . 25 (7): 517–526. doi :10.1016/j.image.2010.03.004.
- ^ "Página de redirección". www.compression.ru .
- ^ Wang, Z.; Li, Q. (diciembre de 2007). "Evaluación de la calidad del vídeo mediante un modelo estadístico de la percepción de la velocidad visual humana" (PDF) . Revista de la Sociedad Óptica de América A. 24 ( 12): B61–B69. Bibcode :2007JOSAA..24...61W. CiteSeerX 10.1.1.113.4177 . doi :10.1364/JOSAA.24.000B61. PMID 18059915.
- ^ abc Zhou Wang; Bovik, AC (enero de 2009). "Error cuadrático medio: ¿Lo amas o lo dejas? Una nueva mirada a las medidas de fidelidad de señal". Revista IEEE Signal Processing . 26 (1): 98–117. Bibcode :2009ISPM...26...98W. doi :10.1109/msp.2008.930649. ISSN 1053-5888. S2CID 2492436.
- ^ Rehman, A.; Zeng, K.; Wang, Zhou (febrero de 2015). Rogowitz, Bernice E; Pappas, Thrasyvoulos N; De Ridder, Huib (eds.). "Evaluación de la calidad de la experiencia de video adaptada al dispositivo de visualización" (PDF) . IS&T-SPIE Imágenes electrónicas, visión humana e imágenes electrónicas XX . Visión humana e imágenes electrónicas XX. 9394 : 939406. Bibcode :2015SPIE.9394E..06R. doi :10.1117/12.2077917. S2CID 1466973.
- ^ Marchetti, F. (enero de 2021). "Tasa de convergencia en términos del índice SSIM continuo (cSSIM) en interpolación RBF" (PDF) . Dolom. Res. Notas Aprox . 14 : 27–32.
- ^ "SSIMULACRA 2 - La similitud estructural revela artefactos relacionados con la compresión y la localización". Cloudinary. 12 de julio de 2023.
- ^ "Detección del impacto psicovisual de los artefactos relacionados con la compresión mediante SSIMULACRA". Blog de Cloudinary . 14 de junio de 2017.
- ^ Prieto, Gabriel; Guibelalde, Eduardo; Chevalier, Margarita; Turrero, Agustín (21 de julio de 2011). "Uso del componente de correlación cruzada de la métrica de similitud estructural multiescala (métrica R*) para la evaluación de imágenes médicas: Métrica R* para la evaluación de imágenes médicas". Física Médica . 38 (8): 4512–4517. doi :10.1118/1.3605634. PMID 21928621.
- ^ Chen, Guan-hao; Yang, Chun-ling; Xie, Sheng-li (octubre de 2006). "Similitud estructural basada en gradientes para la evaluación de la calidad de la imagen". Conferencia internacional sobre procesamiento de imágenes de 2006. págs. 2929–2932. doi :10.1109/ICIP.2006.313132. ISBN 1-4244-0480-0. Número de identificación del sujeto 15809337.
- ^ Renieblas, Gabriel Prieto; Nogués, Agustín Turrero; González, Alberto Muñoz; Gómez-León, Nieves; del Castillo, Eduardo Guibelalde (26 de julio de 2017). "Familia de índices de similitud estructural para la evaluación de la calidad de la imagen en imágenes radiológicas". Revista de imágenes médicas . 4 (3): 035501. doi :10.1117/1.JMI.4.3.035501. PMC 5527267 . PMID 28924574.
- ^ ab Gao, Y.; Rehman, A.; Wang, Z. (septiembre de 2011). Clasificación de imágenes basada en CW-SSIM (PDF) . Conferencia internacional IEEE sobre procesamiento de imágenes (ICIP11).
- ^ Zhang, Lin; Zhang, Lei; Mou, X.; Zhang, D. (septiembre de 2012). "Una evaluación integral de algoritmos de evaluación de calidad de imagen de referencia completa". 2012 19th IEEE International Conference on Image Processing . págs. 1477–1480. CiteSeerX 10.1.1.476.2566 . doi :10.1109/icip.2012.6467150. ISBN 978-1-4673-2533-2. Número de identificación del sujeto 10716320.
- ^ Zhou Wang; Wang, Zhou; Li, Qiang (mayo de 2011). "Ponderación del contenido de información para la evaluación de la calidad de la imagen perceptual". IEEE Transactions on Image Processing . 20 (5): 1185–1198. Bibcode :2011ITIP...20.1185W. doi :10.1109/tip.2010.2092435. PMID 21078577. S2CID 106021.
- ^ Channappayya, SS; Bovik, AC; Caramanis, C.; Heath, RW (marzo de 2008). "SSIM-optimal linear image restore". Conferencia internacional IEEE de 2008 sobre acústica, habla y procesamiento de señales . págs. 765–768. CiteSeerX 10.1.1.152.7952 . doi :10.1109/icassp.2008.4517722. ISBN . 978-1-4244-1483-3. Número de identificación del sujeto 14830268.
- ^ Gore, Akshay; Gupta, Savita (1 de febrero de 2015). "Métricas de calidad de imagen de referencia completas para imágenes comprimidas JPEG". AEU — Revista internacional de electrónica y comunicaciones . 69 (2): 604–608. doi :10.1016/j.aeue.2014.09.002.
- ^ Wang, Z.; Simoncelli, EP (septiembre de 2008). "Competencia de máxima diferenciación (MAD): una metodología para comparar modelos computacionales de cantidades perceptuales" (PDF) . Journal of Vision . 8 (12): 8.1–13. doi :10.1167/8.12.8. PMC 4143340 . PMID 18831621.
- ^ Reibman, AR; Poole, D. (septiembre de 2007). "Caracterización de las deficiencias por pérdida de paquetes en vídeo comprimido". Conferencia internacional IEEE de 2007 sobre procesamiento de imágenes . Vol. 5. págs. V – 77–V – 80. CiteSeerX 10.1.1.159.5710 . doi :10.1109/icip.2007.4379769. ISBN . 978-1-4244-1436-9.S2CID1685021 .
- ^ Hore, A.; Ziou, D. (agosto de 2010). "Métricas de calidad de imagen: PSNR vs. SSIM". 2010 20th International Conference on Pattern Recognition . págs. 2366–2369. doi :10.1109/icpr.2010.579. ISBN 978-1-4244-7542-1.S2CID 9506273 .
Enlaces externos
- Página de inicio
- Implementación de Rust
- Implementación de C/C++
- Implementación de DSSIM en C++
- Implementación de C# de Chris Lomont
- Implementación de qpsnr (C++ multiproceso)
- Implementación en software VQMT
- Implementación en Python
- "El misterio detrás de las medidas de similitud MSE y SSIM", Gintautas Palubinskas, 2014