Predicción de la calidad del vídeo digital.
La medida del índice de similitud estructural ( SSIM ) es un método para predecir la calidad percibida de la televisión digital y las imágenes cinematográficas, así como otros tipos de imágenes y vídeos digitales. También se utiliza para medir la similitud entre dos imágenes. El índice SSIM es una métrica de referencia completa ; en otras palabras, la medición o predicción de la calidad de la imagen se basa en una imagen inicial sin comprimir o sin distorsiones como referencia.
SSIM es un modelo basado en la percepción que considera la degradación de la imagen como un cambio percibido en la información estructural , al tiempo que incorpora importantes fenómenos de percepción, incluidos términos de enmascaramiento de luminancia y de contraste. La diferencia con otras técnicas como MSE o PSNR es que estos enfoques estiman errores absolutos . La información estructural es la idea de que los píxeles tienen fuertes interdependencias, especialmente cuando están espacialmente cerca. Estas dependencias contienen información importante sobre la estructura de los objetos en la escena visual. El enmascaramiento de luminancia es un fenómeno por el cual las distorsiones de la imagen (en este contexto) tienden a ser menos visibles en regiones brillantes, mientras que el enmascaramiento de contraste es un fenómeno por el cual las distorsiones se vuelven menos visibles cuando hay una actividad o "textura" significativa en la imagen.
Historia
El predecesor del SSIM se llamó Índice de Calidad Universal (UQI), o Índice Wang-Bovik , que fue desarrollado por Zhou Wang y Alan Bovik en 2001. Este evolucionó, a través de su colaboración con Hamid Sheikh y Eero Simoncelli , hasta convertirse en la versión actual del SSIM. , que se publicó en abril de 2004 en IEEE Transactions on Image Processing . [1] Además de definir el índice de calidad SSIM, el artículo proporciona un contexto general para desarrollar y evaluar medidas de calidad perceptiva, incluidas las conexiones con la neurobiología visual humana y la percepción, y la validación directa del índice frente a las calificaciones de sujetos humanos.
El modelo básico se desarrolló en el Laboratorio de Ingeniería de Imagen y Vídeo (LIVE) de la Universidad de Texas en Austin y se desarrolló conjuntamente con el Laboratorio de Visión Computacional (LCV) de la Universidad de Nueva York . Se han desarrollado otras variantes del modelo en el Laboratorio de Computación Visual y de Imagen de la Universidad de Waterloo y se han comercializado.
Posteriormente, SSIM encontró una fuerte adopción en la comunidad de procesamiento de imágenes y en las industrias de la televisión y las redes sociales. El artículo SSIM de 2004 ha sido citado más de 50.000 veces según Google Scholar , [2] lo que lo convierte en uno de los artículos más citados en los campos de procesamiento de imágenes e ingeniería de vídeo. Fue reconocido con el premio al mejor artículo de la IEEE Signal Processing Society en 2009. [3] También recibió el premio al impacto sostenido de la IEEE Signal Processing Society en 2016, lo que indica que un artículo tiene un impacto inusualmente alto durante al menos 10 años después de su publicación. Debido a su alta adopción por parte de la industria de la televisión, los autores del artículo SSIM original recibieron cada uno de ellos un premio Primetime Engineering Emmy en 2015 de la Academia de Televisión .
Algoritmo
El índice SSIM se calcula en varias ventanas de una imagen. La medida entre dos ventanas y de tamaño común es: [4]
con:
- la media muestral de píxeles de ;
- la media muestral de píxeles de ;
- la varianza de ;
- la varianza de ;
- la covarianza de y ;
- , dos variables para estabilizar la división con denominador débil;
- el rango dinámico de los valores de píxeles (normalmente es );
- y por defecto.
Componentes de la fórmula
La fórmula SSIM se basa en tres medidas de comparación entre las muestras de y : luminancia ( ), contraste ( ) y estructura ( ). Las funciones de comparación individuales son: [4]
con, además de las definiciones anteriores:
SSIM es entonces una combinación ponderada de esas medidas comparativas:
Al establecer los pesos en 1, la fórmula se puede reducir a la forma que se muestra arriba.
Propiedades matemáticas
SSIM satisface la identidad de indiscernibles y las propiedades de simetría, pero no la desigualdad del triángulo o la no negatividad y, por lo tanto, no es una función de distancia . Sin embargo, bajo ciertas condiciones, SSIM puede convertirse en una medida MSE raíz normalizada, que es una función de distancia. [5] El cuadrado de dicha función no es convexo, pero es localmente convexo y cuasiconvexo , [5] lo que convierte a SSIM en un objetivo factible para la optimización.
Aplicación de la fórmula
Para evaluar la calidad de la imagen, esta fórmula se suele aplicar sólo sobre luma , aunque también se puede aplicar sobre valores de color (p. ej., RGB ) o valores cromáticos (p. ej., YCbCr ). El índice SSIM resultante es un valor decimal entre -1 y 1, donde 1 indica similitud perfecta, 0 indica ninguna similitud y -1 indica anticorrelación perfecta. Para una imagen, normalmente se calcula utilizando una ventana gaussiana deslizante de tamaño 11x11 o una ventana de bloque de tamaño 8×8. La ventana se puede desplazar píxel a píxel en la imagen para crear un mapa de calidad SSIM de la imagen. En el caso de la evaluación de la calidad del vídeo, [6] los autores proponen utilizar sólo un subgrupo de ventanas posibles para reducir la complejidad del cálculo.
Variantes
SSIM multiescala
Una forma más avanzada de SSIM, llamada SSIM multiescala (MS-SSIM) [4], se lleva a cabo en múltiples escalas a través de un proceso de múltiples etapas de submuestreo, que recuerda al procesamiento multiescala en el sistema de visión temprano. Se ha demostrado que funciona igual o mejor que SSIM en diferentes bases de datos subjetivas de imágenes y vídeos. [4] [7] [8]
SSIM multicomponente
SSIM de tres componentes (3-SSIM) es una forma de SSIM que tiene en cuenta el hecho de que el ojo humano puede ver diferencias con mayor precisión en regiones texturizadas o de bordes que en regiones lisas. [9] La métrica resultante se calcula como un promedio ponderado de SSIM para tres categorías de regiones: bordes, texturas y regiones suaves. La ponderación propuesta es 0,5 para los bordes y 0,25 para las regiones texturizadas y lisas. Los autores mencionan que una ponderación de 1/0/0 (ignorando todo menos las distorsiones de los bordes) conduce a resultados más cercanos a las calificaciones subjetivas. Esto sugiere que las regiones marginales desempeñan un papel dominante en la percepción de la calidad de la imagen.
Los autores de 3-SSIM también han ampliado el modelo aSSIM de cuatro componentes (4-SSIM). Los tipos de aristas se subdividen en aristas conservadas y modificadas según su estado de distorsión. La ponderación propuesta es 0,25 para los cuatro componentes. [10]
Disimilitud estructural
La disimilitud estructural (DSSIM) puede derivarse de SSIM, aunque no constituye una función de distancia ya que la desigualdad del triángulo no necesariamente se satisface.
Métricas de calidad de vídeo y variantes temporales.
Vale la pena señalar que la versión original SSIM fue diseñada para medir la calidad de imágenes fijas. No contiene ningún parámetro directamente relacionado con los efectos temporales de la percepción y el juicio humanos. [7] Una práctica común es calcular el valor SSIM promedio en todos los fotogramas de la secuencia de vídeo. Sin embargo, se han desarrollado varias variantes temporales de SSIM. [11] [6] [12]
Wavelet complejo SSIM
La variante compleja de transformada wavelet del SSIM (CW-SSIM) está diseñada para abordar problemas de escalado, traducción y rotación de imágenes. En lugar de dar puntuaciones bajas a imágenes con tales condiciones, el CW-SSIM aprovecha la compleja transformada wavelet y, por tanto, produce puntuaciones más altas para dichas imágenes. El CW-SSIM se define de la siguiente manera:
¿Dónde está la transformada wavelet compleja de la señal y es la transformada wavelet compleja de la señal ? Además, se utiliza un pequeño número positivo con fines de estabilidad funcional. Lo ideal sería que fuera cero. Al igual que el SSIM, el CW-SSIM tiene un valor máximo de 1. El valor máximo de 1 indica que las dos señales son perfectamente similares estructuralmente, mientras que un valor de 0 indica que no hay similitud estructural. [13]
SSIMPLUS
El índice SSIMPLUS se basa en SSIM y es una herramienta disponible comercialmente. [14] Amplía las capacidades de SSIM, principalmente para apuntar a aplicaciones de vídeo. Proporciona puntuaciones en el rango de 0 a 100, coincidentes linealmente con puntuaciones subjetivas humanas. También permite adaptar las puntuaciones al dispositivo de visualización previsto, comparando vídeos en diferentes resoluciones y contenidos.
Según sus autores, SSIMPLUS logra mayor precisión y mayor velocidad que otras métricas de calidad de imagen y video. Sin embargo, no se ha realizado ninguna evaluación independiente de SSIMPLUS, ya que el algoritmo en sí no está disponible públicamente.
cSSIM
Para investigar más a fondo el SSIM discreto estándar desde una perspectiva teórica, se introdujo y estudió el SSIM continuo (cSSIM) [15] en el contexto de la interpolación de funciones de base radial .
SSIMULACRA
SSIMULACRA y SSIMULACRA2 son variantes de SSIM desarrolladas por Cloudinary con el objetivo de adaptarse a datos de opinión subjetiva. Las variantes operan en el espacio de color XYB y combinan MS-SSIM con dos tipos de mapas de error asimétricos para bloqueo/timbre y suavizado/desenfoque, artefactos de compresión comunes. SSIMULACRA2 es parte de libjxl, la implementación de referencia de JPEG XL . [16] [17]
Otras modificaciones simples
La métrica de correlación cruzada r* se basa en las métricas de varianza de SSIM. Se define como r *( x , y ) =xy/σx σycuando σ x σ y ≠ 0 , 1 cuando ambas desviaciones estándar son cero y 0 cuando solo una es cero. Ha encontrado utilidad en el análisis de la respuesta humana a fantasmas con detalles de contraste. [18]
SSIM también se ha utilizado en el degradado de imágenes, convirtiéndolo en "G-SSIM". G-SSIM es especialmente útil en imágenes borrosas. [19]
Las modificaciones anteriores se pueden combinar. Por ejemplo, 4-Gr* es una combinación de 4-SSIM, G-SSIM y r*. Es capaz de reflejar la preferencia de los radiólogos por las imágenes mucho mejor que otras variantes de SSIM probadas. [20]
Solicitud
SSIM tiene aplicaciones en una variedad de problemas diferentes. Algunos ejemplos son:
- Compresión de imágenes: en la compresión de imágenes con pérdida , la información se descarta deliberadamente para disminuir el espacio de almacenamiento de imágenes y videos. El MSE se utiliza normalmente en dichos esquemas de compresión. Según sus autores, se sugiere utilizar SSIM en lugar de MSE para producir mejores resultados para las imágenes descomprimidas. [13]
- Restauración de Imagen: La restauración de imagen se enfoca en resolver el problema de dónde está la imagen borrosa que se debe restaurar, es el núcleo de desenfoque, es el ruido aditivo y es la imagen original que deseamos recuperar. El filtro tradicional que se utiliza para solucionar este problema es el filtro Wiener. Sin embargo, el diseño del filtro Wiener se basa en el MSE. Según los autores del algoritmo, se afirma que el uso de una variante SSIM, específicamente Stat-SSIM, produce mejores resultados visuales. [13]
- Reconocimiento de patrones: dado que SSIM imita aspectos de la percepción humana, podría usarse para reconocer patrones. Cuando se enfrentan a problemas como el escalado, la traducción y la rotación de la imagen, los autores del algoritmo afirman que es mejor usar CW-SSIM, [21] que es insensible a estas variaciones y puede aplicarse directamente mediante la coincidencia de plantillas sin utilizar ninguna muestra de entrenamiento. Dado que los enfoques de reconocimiento de patrones basados en datos pueden producir un mejor rendimiento cuando hay una gran cantidad de datos disponibles para el entrenamiento, los autores sugieren utilizar CW-SSIM en enfoques basados en datos. [21]
Comparación de rendimiento
Debido a su popularidad, SSIM a menudo se compara con otras métricas, incluidas métricas más simples como MSE y PSNR, y otras métricas de calidad de imagen y video de percepción . Se ha demostrado repetidamente que SSIM supera significativamente a MSE y sus derivados en precisión, incluidas investigaciones realizadas por sus propios autores y otros. [7] [22] [23] [24] [25] [26]
Un artículo de Dosselmann y Yang afirma que el rendimiento del SSIM es "mucho más cercano al del MSE" de lo que normalmente se supone. Si bien no cuestionan la ventaja del SSIM sobre el MSE, afirman una dependencia analítica y funcional entre las dos métricas. [8] Según su investigación, se ha descubierto que SSIM se correlaciona tan bien como los métodos basados en MSE en bases de datos subjetivas distintas a las bases de datos de los creadores de SSIM. Como ejemplo, citan a Reibman y Poole, quienes descubrieron que MSE superó a SSIM en una base de datos que contenía video deteriorado por pérdida de paquetes. [27] En otro artículo, se identificó un vínculo analítico entre PSNR y SSIM. [28]
Ver también
Referencias
- ^ Wang, Zhou; Bovik, AC; jeque, recursos humanos; Simoncelli, EP (1 de abril de 2004). "Evaluación de la calidad de la imagen: de la visibilidad del error a la similitud estructural". Transacciones IEEE sobre procesamiento de imágenes . 13 (4): 600–612. Código Bib : 2004ITIP...13..600W. CiteSeerX 10.1.1.2.5689 . doi :10.1109/TIP.2003.819861. ISSN 1057-7149. PMID 15376593. S2CID 207761262.
- ^ "Google Académico". académico.google.com . Consultado el 4 de julio de 2019 .
- ^ "IEEE Signal Processing Society, premio al mejor artículo" (PDF) .
- ^ abcd Wang, Z.; Simoncelli, EP; Bovik, AC (1 de noviembre de 2003). "Similitud estructural multiescala para la evaluación de la calidad de la imagen". La Trigésima Séptima Conferencia de Asilomar sobre Señales, Sistemas y Computadoras, 2003 . vol. 2. págs. 1398–1402 Vol.2. CiteSeerX 10.1.1.58.1939 . doi :10.1109/ACSSC.2003.1292216. ISBN 978-0-7803-8104-9. S2CID 60600316.
- ^ ab Brunet, D.; Vass, J.; Vrscay, ER; Wang, Z. (abril de 2012). "Sobre las propiedades matemáticas del índice de similitud estructural" (PDF) . Transacciones IEEE sobre procesamiento de imágenes . 21 (4): 2324–2328. Código Bib : 2012ITIP...21.1488B. doi :10.1109/TIP.2011.2173206. PMID 22042163. S2CID 13739220.
- ^ ab Wang, Z.; Lu, L.; Bovik, AC (febrero de 2004). "Evaluación de la calidad del vídeo basada en la medición de la distorsión estructural". Procesamiento de señales: comunicación de imágenes . 19 (2): 121-132. CiteSeerX 10.1.1.2.6330 . doi :10.1016/S0923-5965(03)00076-6.
- ^ a b C Søgaard, Jacob; Krasula, Lukáš; Shahid, Mahoma; Temel, Dogancán; Brunnström, Kjell; Razaak, Manzoor (14 de febrero de 2016). "Aplicabilidad de las métricas objetivas existentes de calidad de percepción para la transmisión de vídeo adaptativo" (PDF) . Imágenes electrónicas . 2016 (13): 1–7. doi :10.2352/issn.2470-1173.2016.13.iqsp-206. S2CID 26253431.
- ^ ab Dosselmann, Richard; Yang, Xue Dong (6 de noviembre de 2009). "Una evaluación integral del índice de similitud estructural". Procesamiento de Señal, Imagen y Vídeo . 5 (1): 81–91. doi :10.1007/s11760-009-0144-1. ISSN 1863-1703. S2CID 30046880.
- ^ Li, Chaofeng; Bovik, Alan Conrad (1 de enero de 2010). "Evaluación de la calidad del vídeo ponderada por contenido utilizando un modelo de imagen de tres componentes". Revista de imágenes electrónicas . 19 (1): 011003–011003–9. Código Bib : 2010JEI....19a1003L. doi : 10.1117/1.3267087. ISSN 1017-9909.
- ^ Li, Chaofeng; Bovik, Alan C. (agosto de 2010). "Índice de similitud estructural dividido por contenido para la evaluación de la calidad de la imagen". Procesamiento de señales: comunicación de imágenes . 25 (7): 517–526. doi : 10.1016/j.image.2010.03.004.
- ^ "Página de redireccionamiento". www.compression.ru .
- ^ Wang, Z.; Li, Q. (diciembre de 2007). "Evaluación de la calidad del vídeo mediante un modelo estadístico de percepción de la velocidad visual humana" (PDF) . Revista de la Sociedad Óptica de América A. 24 (12): B61-B69. Código Bib : 2007JOSAA..24...61W. CiteSeerX 10.1.1.113.4177 . doi :10.1364/JOSAA.24.000B61. PMID 18059915.
- ^ abc Zhou Wang; Bovik, AC (enero de 2009). "Error cuadrático medio: ¿te encanta o lo dejas? Una nueva mirada a las medidas de fidelidad de la señal". Revista de procesamiento de señales IEEE . 26 (1): 98-117. Código Bib : 2009 ISPM...26...98W. doi :10.1109/msp.2008.930649. ISSN 1053-5888. S2CID 2492436.
- ^ Rehman, A.; Zeng, K.; Wang, Zhou (febrero de 2015). Rogowitz, Bernice E; Pappas, Thrasyvoulos N; De Ridder, Huib (eds.). "Evaluación de la calidad de la experiencia de vídeo adaptada al dispositivo de visualización" (PDF) . IS&T-SPIE Imagen Electrónica, Visión Humana e Imagen Electrónica XX . Visión humana e imágenes electrónicas XX. 9394 : 939406. Código Bib : 2015SPIE.9394E..06R. doi :10.1117/12.2077917. S2CID 1466973.
- ^ Marchetti, F. (enero de 2021). "Tasa de convergencia en términos del índice SSIM continuo (cSSIM) en interpolación RBF" (PDF) . Dolomía. Res. Notas Aprox . 14 : 27–32.
- ^ "SSIMULACRA 2 - Similitud estructural que revela artefactos locales y relacionados con la compresión". Nublado. 12 de julio de 2023.
- ^ "Detección del impacto psicovisual de artefactos relacionados con la compresión utilizando SSIMULACRA". Blog nuboso . 14 de junio de 2017.
- ^ Prieto, Gabriel; Guibelalde, Eduardo; Caballero, Margarita; Turrero, Agustín (21 de julio de 2011). "Uso del componente de correlación cruzada de la métrica de similitud estructural multiescala (métrica R *) para la evaluación de imágenes médicas: métrica R * para la evaluación de imágenes médicas". Física Médica . 38 (8): 4512–4517. doi : 10.1118/1.3605634. PMID 21928621.
- ^ Chen, Guan-hao; Yang, Chun Ling; Xie, Sheng-li (octubre de 2006). "Similitud estructural basada en gradientes para la evaluación de la calidad de la imagen". 2006 Conferencia Internacional sobre Procesamiento de Imágenes . págs. 2929-2932. doi :10.1109/ICIP.2006.313132. ISBN 1-4244-0480-0. S2CID 15809337.
- ^ Renieblas, Gabriel Prieto; Nogués, Agustín Turrero; González, Alberto Muñoz; Gómez-León, Nieves; del Castillo, Eduardo Guibelalde (26 de julio de 2017). "Familia de índices de similitud estructural para la evaluación de la calidad de la imagen en imágenes radiológicas". Revista de imágenes médicas . 4 (3): 035501. doi :10.1117/1.JMI.4.3.035501. PMC 5527267 . PMID 28924574.
- ^ ab Gao, Y.; Rehman, A.; Wang, Z. (septiembre de 2011). Clasificación de imágenes basada en CW-SSIM (PDF) . Conferencia internacional IEEE sobre procesamiento de imágenes (ICIP11).
- ^ Zhang, Lin; Zhang, Lei; Mou, X.; Zhang, D. (septiembre de 2012). "Una evaluación integral de los algoritmos de evaluación de la calidad de la imagen de referencia completa". 2012 XIX Conferencia Internacional IEEE sobre Procesamiento de Imágenes . págs. 1477-1480. CiteSeerX 10.1.1.476.2566 . doi :10.1109/icip.2012.6467150. ISBN 978-1-4673-2533-2. S2CID 10716320.
- ^ Zhou Wang; Wang, Zhou; Li, Qiang (mayo de 2011). "Ponderación del contenido de información para la evaluación de la calidad de la imagen perceptual". Transacciones IEEE sobre procesamiento de imágenes . 20 (5): 1185-1198. Código Bib : 2011ITIP...20.1185W. doi :10.1109/tip.2010.2092435. PMID 21078577. S2CID 106021.
- ^ Channappayya, SS; Bovik, AC; Caramanis, C.; Heath, RW (marzo de 2008). "Restauración de imágenes lineales óptimas para SSIM". Conferencia internacional IEEE 2008 sobre acústica, habla y procesamiento de señales . págs. 765–768. CiteSeerX 10.1.1.152.7952 . doi :10.1109/icassp.2008.4517722. ISBN 978-1-4244-1483-3. S2CID 14830268.
- ^ Sangre, Akshay; Gupta, Savita (1 de febrero de 2015). "Métricas de calidad de imagen de referencia completa para imágenes comprimidas JPEG". AEU - Revista Internacional de Electrónica y Comunicaciones . 69 (2): 604–608. doi :10.1016/j.aeue.2014.09.002.
- ^ Wang, Z.; Simoncelli, EP (septiembre de 2008). "Competencia de máxima diferenciación (MAD): una metodología para comparar modelos computacionales de cantidades perceptuales" (PDF) . Revista de Visión . 8 (12): 8,1–13. doi :10.1167/8.12.8. PMC 4143340 . PMID 18831621.
- ^ Reibman, AR; Poole, D. (septiembre de 2007). "Caracterización de las deficiencias de pérdida de paquetes en vídeo comprimido". Conferencia internacional IEEE 2007 sobre procesamiento de imágenes . vol. 5. págs. V - 77 – V - 80. CiteSeerX 10.1.1.159.5710 . doi :10.1109/icip.2007.4379769. ISBN 978-1-4244-1436-9. S2CID 1685021.
- ^ Hore, A.; Ziou, D. (agosto de 2010). "Métricas de calidad de imagen: PSNR frente a SSIM". 2010 XX Congreso Internacional sobre Reconocimiento de Patrones . págs. 2366–2369. doi :10.1109/icpr.2010.579. ISBN 978-1-4244-7542-1. S2CID 9506273.
enlaces externos
- pagina de inicio
- Implementación de óxido
- Implementación de C/C++
- Implementación de DSSIM C++
- Implementación de C# de Chris Lomont
- Implementación de qpsnr (C++ multiproceso)
- Implementación en software VQMT
- Implementación en Python
- "Misterio detrás de las medidas de similitud MSE y SSIM", Gintautas Palubinskas, 2014