stringtranslate.com

Medida del índice de similitud estructural

La medida del índice de similitud estructural ( SSIM ) es un método para predecir la calidad percibida de la televisión digital y las imágenes cinematográficas, así como otros tipos de imágenes y vídeos digitales. También se utiliza para medir la similitud entre dos imágenes. El índice SSIM es una métrica de referencia completa ; en otras palabras, la medición o predicción de la calidad de la imagen se basa en una imagen inicial sin comprimir o sin distorsiones como referencia.

SSIM es un modelo basado en la percepción que considera la degradación de la imagen como un cambio percibido en la información estructural , al tiempo que incorpora importantes fenómenos de percepción, incluidos términos de enmascaramiento de luminancia y de contraste. La diferencia con otras técnicas como MSE o PSNR es que estos enfoques estiman errores absolutos . La información estructural es la idea de que los píxeles tienen fuertes interdependencias, especialmente cuando están espacialmente cerca. Estas dependencias contienen información importante sobre la estructura de los objetos en la escena visual. El enmascaramiento de luminancia es un fenómeno por el cual las distorsiones de la imagen (en este contexto) tienden a ser menos visibles en regiones brillantes, mientras que el enmascaramiento de contraste es un fenómeno por el cual las distorsiones se vuelven menos visibles cuando hay una actividad o "textura" significativa en la imagen.

Historia

El predecesor del SSIM se llamó Índice de Calidad Universal (UQI), o Índice Wang-Bovik , que fue desarrollado por Zhou Wang y Alan Bovik en 2001. Este evolucionó, a través de su colaboración con Hamid Sheikh y Eero Simoncelli , hasta convertirse en la versión actual del SSIM. , que se publicó en abril de 2004 en IEEE Transactions on Image Processing . [1] Además de definir el índice de calidad SSIM, el artículo proporciona un contexto general para desarrollar y evaluar medidas de calidad perceptiva, incluidas las conexiones con la neurobiología visual humana y la percepción, y la validación directa del índice frente a las calificaciones de sujetos humanos.

El modelo básico se desarrolló en el Laboratorio de Ingeniería de Imagen y Vídeo (LIVE) de la Universidad de Texas en Austin y se desarrolló conjuntamente con el Laboratorio de Visión Computacional (LCV) de la Universidad de Nueva York . Se han desarrollado otras variantes del modelo en el Laboratorio de Computación Visual y de Imagen de la Universidad de Waterloo y se han comercializado.

Posteriormente, SSIM encontró una fuerte adopción en la comunidad de procesamiento de imágenes y en las industrias de la televisión y las redes sociales. El artículo SSIM de 2004 ha sido citado más de 50.000 veces según Google Scholar , [2] lo que lo convierte en uno de los artículos más citados en los campos de procesamiento de imágenes e ingeniería de vídeo. Fue reconocido con el premio al mejor artículo de la IEEE Signal Processing Society en 2009. [3] También recibió el premio al impacto sostenido de la IEEE Signal Processing Society en 2016, lo que indica que un artículo tiene un impacto inusualmente alto durante al menos 10 años después de su publicación. Debido a su alta adopción por parte de la industria de la televisión, los autores del artículo SSIM original recibieron cada uno de ellos un premio Primetime Engineering Emmy en 2015 de la Academia de Televisión .

Algoritmo

El índice SSIM se calcula en varias ventanas de una imagen. La medida entre dos ventanas y de tamaño común es: [4]

con:

Componentes de la fórmula

La fórmula SSIM se basa en tres medidas de comparación entre las muestras de y : luminancia ( ), contraste ( ) y estructura ( ). Las funciones de comparación individuales son: [4]

con, además de las definiciones anteriores:

SSIM es entonces una combinación ponderada de esas medidas comparativas:

Al establecer los pesos en 1, la fórmula se puede reducir a la forma que se muestra arriba.

Propiedades matemáticas

SSIM satisface la identidad de indiscernibles y las propiedades de simetría, pero no la desigualdad del triángulo o la no negatividad y, por lo tanto, no es una función de distancia . Sin embargo, bajo ciertas condiciones, SSIM puede convertirse en una medida MSE raíz normalizada, que es una función de distancia. [5] El cuadrado de dicha función no es convexo, pero es localmente convexo y cuasiconvexo , [5] lo que convierte a SSIM en un objetivo factible para la optimización.

Aplicación de la fórmula

Para evaluar la calidad de la imagen, esta fórmula se suele aplicar sólo sobre luma , aunque también se puede aplicar sobre valores de color (p. ej., RGB ) o valores cromáticos (p. ej., YCbCr ). El índice SSIM resultante es un valor decimal entre -1 y 1, donde 1 indica similitud perfecta, 0 indica ninguna similitud y -1 indica anticorrelación perfecta. Para una imagen, normalmente se calcula utilizando una ventana gaussiana deslizante de tamaño 11x11 o una ventana de bloque de tamaño 8×8. La ventana se puede desplazar píxel a píxel en la imagen para crear un mapa de calidad SSIM de la imagen. En el caso de la evaluación de la calidad del vídeo, [6] los autores proponen utilizar sólo un subgrupo de ventanas posibles para reducir la complejidad del cálculo.

Variantes

SSIM multiescala

Una forma más avanzada de SSIM, llamada SSIM multiescala (MS-SSIM) [4], se lleva a cabo en múltiples escalas a través de un proceso de múltiples etapas de submuestreo, que recuerda al procesamiento multiescala en el sistema de visión temprano. Se ha demostrado que funciona igual o mejor que SSIM en diferentes bases de datos subjetivas de imágenes y vídeos. [4] [7] [8]

SSIM multicomponente

SSIM de tres componentes (3-SSIM) es una forma de SSIM que tiene en cuenta el hecho de que el ojo humano puede ver diferencias con mayor precisión en regiones texturizadas o de bordes que en regiones lisas. [9] La métrica resultante se calcula como un promedio ponderado de SSIM para tres categorías de regiones: bordes, texturas y regiones suaves. La ponderación propuesta es 0,5 para los bordes y 0,25 para las regiones texturizadas y lisas. Los autores mencionan que una ponderación de 1/0/0 (ignorando todo menos las distorsiones de los bordes) conduce a resultados más cercanos a las calificaciones subjetivas. Esto sugiere que las regiones marginales desempeñan un papel dominante en la percepción de la calidad de la imagen.

Los autores de 3-SSIM también han ampliado el modelo aSSIM de cuatro componentes (4-SSIM). Los tipos de aristas se subdividen en aristas conservadas y modificadas según su estado de distorsión. La ponderación propuesta es 0,25 para los cuatro componentes. [10]

Disimilitud estructural

La disimilitud estructural (DSSIM) puede derivarse de SSIM, aunque no constituye una función de distancia ya que la desigualdad del triángulo no necesariamente se satisface.

Métricas de calidad de vídeo y variantes temporales.

Vale la pena señalar que la versión original SSIM fue diseñada para medir la calidad de imágenes fijas. No contiene ningún parámetro directamente relacionado con los efectos temporales de la percepción y el juicio humanos. [7] Una práctica común es calcular el valor SSIM promedio en todos los fotogramas de la secuencia de vídeo. Sin embargo, se han desarrollado varias variantes temporales de SSIM. [11] [6] [12]

Wavelet complejo SSIM

La variante compleja de transformada wavelet del SSIM (CW-SSIM) está diseñada para abordar problemas de escalado, traducción y rotación de imágenes. En lugar de dar puntuaciones bajas a imágenes con tales condiciones, el CW-SSIM aprovecha la compleja transformada wavelet y, por tanto, produce puntuaciones más altas para dichas imágenes. El CW-SSIM se define de la siguiente manera:

¿Dónde está la transformada wavelet compleja de la señal y es la transformada wavelet compleja de la señal ? Además, se utiliza un pequeño número positivo con fines de estabilidad funcional. Lo ideal sería que fuera cero. Al igual que el SSIM, el CW-SSIM tiene un valor máximo de 1. El valor máximo de 1 indica que las dos señales son perfectamente similares estructuralmente, mientras que un valor de 0 indica que no hay similitud estructural. [13]

SSIMPLUS

El índice SSIMPLUS se basa en SSIM y es una herramienta disponible comercialmente. [14] Amplía las capacidades de SSIM, principalmente para apuntar a aplicaciones de vídeo. Proporciona puntuaciones en el rango de 0 a 100, coincidentes linealmente con puntuaciones subjetivas humanas. También permite adaptar las puntuaciones al dispositivo de visualización previsto, comparando vídeos en diferentes resoluciones y contenidos.

Según sus autores, SSIMPLUS logra mayor precisión y mayor velocidad que otras métricas de calidad de imagen y video. Sin embargo, no se ha realizado ninguna evaluación independiente de SSIMPLUS, ya que el algoritmo en sí no está disponible públicamente.

cSSIM

Para investigar más a fondo el SSIM discreto estándar desde una perspectiva teórica, se introdujo y estudió el SSIM continuo (cSSIM) [15] en el contexto de la interpolación de funciones de base radial .

SSIMULACRA

SSIMULACRA y SSIMULACRA2 son variantes de SSIM desarrolladas por Cloudinary con el objetivo de adaptarse a datos de opinión subjetiva. Las variantes operan en el espacio de color XYB y combinan MS-SSIM con dos tipos de mapas de error asimétricos para bloqueo/timbre y suavizado/desenfoque, artefactos de compresión comunes. SSIMULACRA2 es parte de libjxl, la implementación de referencia de JPEG XL . [16] [17]

Otras modificaciones simples

La métrica de correlación cruzada r* se basa en las métricas de varianza de SSIM. Se define como r *( x , y ) =xy/σx σycuando σ x σ y ≠ 0 , 1 cuando ambas desviaciones estándar son cero y 0 cuando solo una es cero. Ha encontrado utilidad en el análisis de la respuesta humana a fantasmas con detalles de contraste. [18]

SSIM también se ha utilizado en el degradado de imágenes, convirtiéndolo en "G-SSIM". G-SSIM es especialmente útil en imágenes borrosas. [19]

Las modificaciones anteriores se pueden combinar. Por ejemplo, 4-Gr* es una combinación de 4-SSIM, G-SSIM y r*. Es capaz de reflejar la preferencia de los radiólogos por las imágenes mucho mejor que otras variantes de SSIM probadas. [20]

Solicitud

SSIM tiene aplicaciones en una variedad de problemas diferentes. Algunos ejemplos son:

Comparación de rendimiento

Debido a su popularidad, SSIM a menudo se compara con otras métricas, incluidas métricas más simples como MSE y PSNR, y otras métricas de calidad de imagen y video de percepción . Se ha demostrado repetidamente que SSIM supera significativamente a MSE y sus derivados en precisión, incluidas investigaciones realizadas por sus propios autores y otros. [7] [22] [23] [24] [25] [26]

Un artículo de Dosselmann y Yang afirma que el rendimiento del SSIM es "mucho más cercano al del MSE" de lo que normalmente se supone. Si bien no cuestionan la ventaja del SSIM sobre el MSE, afirman una dependencia analítica y funcional entre las dos métricas. [8] Según su investigación, se ha descubierto que SSIM se correlaciona tan bien como los métodos basados ​​en MSE en bases de datos subjetivas distintas a las bases de datos de los creadores de SSIM. Como ejemplo, citan a Reibman y Poole, quienes descubrieron que MSE superó a SSIM en una base de datos que contenía video deteriorado por pérdida de paquetes. [27] En otro artículo, se identificó un vínculo analítico entre PSNR y SSIM. [28]

Ver también

Referencias

  1. ^ Wang, Zhou; Bovik, AC; jeque, recursos humanos; Simoncelli, EP (1 de abril de 2004). "Evaluación de la calidad de la imagen: de la visibilidad del error a la similitud estructural". Transacciones IEEE sobre procesamiento de imágenes . 13 (4): 600–612. Código Bib : 2004ITIP...13..600W. CiteSeerX  10.1.1.2.5689 . doi :10.1109/TIP.2003.819861. ISSN  1057-7149. PMID  15376593. S2CID  207761262.
  2. ^ "Google Académico". académico.google.com . Consultado el 4 de julio de 2019 .
  3. ^ "IEEE Signal Processing Society, premio al mejor artículo" (PDF) .
  4. ^ abcd Wang, Z.; Simoncelli, EP; Bovik, AC (1 de noviembre de 2003). "Similitud estructural multiescala para la evaluación de la calidad de la imagen". La Trigésima Séptima Conferencia de Asilomar sobre Señales, Sistemas y Computadoras, 2003 . vol. 2. págs. 1398–1402 Vol.2. CiteSeerX 10.1.1.58.1939 . doi :10.1109/ACSSC.2003.1292216. ISBN  978-0-7803-8104-9. S2CID  60600316.
  5. ^ ab Brunet, D.; Vass, J.; Vrscay, ER; Wang, Z. (abril de 2012). "Sobre las propiedades matemáticas del índice de similitud estructural" (PDF) . Transacciones IEEE sobre procesamiento de imágenes . 21 (4): 2324–2328. Código Bib : 2012ITIP...21.1488B. doi :10.1109/TIP.2011.2173206. PMID  22042163. S2CID  13739220.
  6. ^ ab Wang, Z.; Lu, L.; Bovik, AC (febrero de 2004). "Evaluación de la calidad del vídeo basada en la medición de la distorsión estructural". Procesamiento de señales: comunicación de imágenes . 19 (2): 121-132. CiteSeerX 10.1.1.2.6330 . doi :10.1016/S0923-5965(03)00076-6. 
  7. ^ a b C Søgaard, Jacob; Krasula, Lukáš; Shahid, Mahoma; Temel, Dogancán; Brunnström, Kjell; Razaak, Manzoor (14 de febrero de 2016). "Aplicabilidad de las métricas objetivas existentes de calidad de percepción para la transmisión de vídeo adaptativo" (PDF) . Imágenes electrónicas . 2016 (13): 1–7. doi :10.2352/issn.2470-1173.2016.13.iqsp-206. S2CID  26253431.
  8. ^ ab Dosselmann, Richard; Yang, Xue Dong (6 de noviembre de 2009). "Una evaluación integral del índice de similitud estructural". Procesamiento de Señal, Imagen y Vídeo . 5 (1): 81–91. doi :10.1007/s11760-009-0144-1. ISSN  1863-1703. S2CID  30046880.
  9. ^ Li, Chaofeng; Bovik, Alan Conrad (1 de enero de 2010). "Evaluación de la calidad del vídeo ponderada por contenido utilizando un modelo de imagen de tres componentes". Revista de imágenes electrónicas . 19 (1): 011003–011003–9. Código Bib : 2010JEI....19a1003L. doi : 10.1117/1.3267087. ISSN  1017-9909.
  10. ^ Li, Chaofeng; Bovik, Alan C. (agosto de 2010). "Índice de similitud estructural dividido por contenido para la evaluación de la calidad de la imagen". Procesamiento de señales: comunicación de imágenes . 25 (7): 517–526. doi : 10.1016/j.image.2010.03.004.
  11. ^ "Página de redireccionamiento". www.compression.ru .
  12. ^ Wang, Z.; Li, Q. (diciembre de 2007). "Evaluación de la calidad del vídeo mediante un modelo estadístico de percepción de la velocidad visual humana" (PDF) . Revista de la Sociedad Óptica de América A. 24 (12): B61-B69. Código Bib : 2007JOSAA..24...61W. CiteSeerX 10.1.1.113.4177 . doi :10.1364/JOSAA.24.000B61. PMID  18059915. 
  13. ^ abc Zhou Wang; Bovik, AC (enero de 2009). "Error cuadrático medio: ¿te encanta o lo dejas? Una nueva mirada a las medidas de fidelidad de la señal". Revista de procesamiento de señales IEEE . 26 (1): 98-117. Código Bib : 2009 ISPM...26...98W. doi :10.1109/msp.2008.930649. ISSN  1053-5888. S2CID  2492436.
  14. ^ Rehman, A.; Zeng, K.; Wang, Zhou (febrero de 2015). Rogowitz, Bernice E; Pappas, Thrasyvoulos N; De Ridder, Huib (eds.). "Evaluación de la calidad de la experiencia de vídeo adaptada al dispositivo de visualización" (PDF) . IS&T-SPIE Imagen Electrónica, Visión Humana e Imagen Electrónica XX . Visión humana e imágenes electrónicas XX. 9394 : 939406. Código Bib : 2015SPIE.9394E..06R. doi :10.1117/12.2077917. S2CID  1466973.
  15. ^ Marchetti, F. (enero de 2021). "Tasa de convergencia en términos del índice SSIM continuo (cSSIM) en interpolación RBF" (PDF) . Dolomía. Res. Notas Aprox . 14 : 27–32.
  16. ^ "SSIMULACRA 2 - Similitud estructural que revela artefactos locales y relacionados con la compresión". Nublado. 12 de julio de 2023.
  17. ^ "Detección del impacto psicovisual de artefactos relacionados con la compresión utilizando SSIMULACRA". Blog nuboso . 14 de junio de 2017.
  18. ^ Prieto, Gabriel; Guibelalde, Eduardo; Caballero, Margarita; Turrero, Agustín (21 de julio de 2011). "Uso del componente de correlación cruzada de la métrica de similitud estructural multiescala (métrica R *) para la evaluación de imágenes médicas: métrica R * para la evaluación de imágenes médicas". Física Médica . 38 (8): 4512–4517. doi : 10.1118/1.3605634. PMID  21928621.
  19. ^ Chen, Guan-hao; Yang, Chun Ling; Xie, Sheng-li (octubre de 2006). "Similitud estructural basada en gradientes para la evaluación de la calidad de la imagen". 2006 Conferencia Internacional sobre Procesamiento de Imágenes . págs. 2929-2932. doi :10.1109/ICIP.2006.313132. ISBN 1-4244-0480-0. S2CID  15809337.
  20. ^ Renieblas, Gabriel Prieto; Nogués, Agustín Turrero; González, Alberto Muñoz; Gómez-León, Nieves; del Castillo, Eduardo Guibelalde (26 de julio de 2017). "Familia de índices de similitud estructural para la evaluación de la calidad de la imagen en imágenes radiológicas". Revista de imágenes médicas . 4 (3): 035501. doi :10.1117/1.JMI.4.3.035501. PMC 5527267 . PMID  28924574. 
  21. ^ ab Gao, Y.; Rehman, A.; Wang, Z. (septiembre de 2011). Clasificación de imágenes basada en CW-SSIM (PDF) . Conferencia internacional IEEE sobre procesamiento de imágenes (ICIP11).
  22. ^ Zhang, Lin; Zhang, Lei; Mou, X.; Zhang, D. (septiembre de 2012). "Una evaluación integral de los algoritmos de evaluación de la calidad de la imagen de referencia completa". 2012 XIX Conferencia Internacional IEEE sobre Procesamiento de Imágenes . págs. 1477-1480. CiteSeerX 10.1.1.476.2566 . doi :10.1109/icip.2012.6467150. ISBN  978-1-4673-2533-2. S2CID  10716320.
  23. ^ Zhou Wang; Wang, Zhou; Li, Qiang (mayo de 2011). "Ponderación del contenido de información para la evaluación de la calidad de la imagen perceptual". Transacciones IEEE sobre procesamiento de imágenes . 20 (5): 1185-1198. Código Bib : 2011ITIP...20.1185W. doi :10.1109/tip.2010.2092435. PMID  21078577. S2CID  106021.
  24. ^ Channappayya, SS; Bovik, AC; Caramanis, C.; Heath, RW (marzo de 2008). "Restauración de imágenes lineales óptimas para SSIM". Conferencia internacional IEEE 2008 sobre acústica, habla y procesamiento de señales . págs. 765–768. CiteSeerX 10.1.1.152.7952 . doi :10.1109/icassp.2008.4517722. ISBN  978-1-4244-1483-3. S2CID  14830268.
  25. ^ Sangre, Akshay; Gupta, Savita (1 de febrero de 2015). "Métricas de calidad de imagen de referencia completa para imágenes comprimidas JPEG". AEU - Revista Internacional de Electrónica y Comunicaciones . 69 (2): 604–608. doi :10.1016/j.aeue.2014.09.002.
  26. ^ Wang, Z.; Simoncelli, EP (septiembre de 2008). "Competencia de máxima diferenciación (MAD): una metodología para comparar modelos computacionales de cantidades perceptuales" (PDF) . Revista de Visión . 8 (12): 8,1–13. doi :10.1167/8.12.8. PMC 4143340 . PMID  18831621. 
  27. ^ Reibman, AR; Poole, D. (septiembre de 2007). "Caracterización de las deficiencias de pérdida de paquetes en vídeo comprimido". Conferencia internacional IEEE 2007 sobre procesamiento de imágenes . vol. 5. págs. V - 77 – V - 80. CiteSeerX 10.1.1.159.5710 . doi :10.1109/icip.2007.4379769. ISBN  978-1-4244-1436-9. S2CID  1685021.
  28. ^ Hore, A.; Ziou, D. (agosto de 2010). "Métricas de calidad de imagen: PSNR frente a SSIM". 2010 XX Congreso Internacional sobre Reconocimiento de Patrones . págs. 2366–2369. doi :10.1109/icpr.2010.579. ISBN 978-1-4244-7542-1. S2CID  9506273.

enlaces externos