Cuantización (procesamiento de imágenes)

La cuantización , involucrada en el procesamiento de imágenes , es una técnica de compresión con pérdida que se logra comprimiendo un rango de valores en un único valor cuántico (discreto). Cuando se reduce el número de símbolos discretos en una secuencia determinada, la secuencia se vuelve más comprimible. Por ejemplo, reducir la cantidad de colores necesarios para representar una imagen digital permite reducir el tamaño del archivo. Las aplicaciones específicas incluyen la cuantificación de datos DCT en JPEG y la cuantificación de datos DWT en JPEG 2000 .

Cuantización de color

La cuantización del color reduce la cantidad de colores utilizados en una imagen; Esto es importante para mostrar imágenes en dispositivos que admiten una cantidad limitada de colores y para comprimir de manera eficiente ciertos tipos de imágenes. La mayoría de los editores de mapas de bits y muchos sistemas operativos tienen soporte integrado para la cuantificación del color. Los algoritmos de cuantificación de color modernos y populares incluyen el algoritmo de color más cercano (para paletas fijas), el algoritmo de corte mediano y un algoritmo basado en octárboles .

Es común combinar la cuantización del color con el tramado para crear la impresión de una mayor cantidad de colores y eliminar artefactos de bandas .

Cuantización de frecuencia para compresión de imágenes.

El ojo humano es bastante bueno para ver pequeñas diferencias de brillo en un área relativamente grande, pero no tan bueno para distinguir la fuerza exacta de una variación de brillo de alta frecuencia (que varía rápidamente). Este hecho permite reducir la cantidad de información requerida ignorando los componentes de alta frecuencia. Esto se hace simplemente dividiendo cada componente en el dominio de la frecuencia por una constante para ese componente y luego redondeando al número entero más cercano. Esta es la principal operación con pérdidas en todo el proceso. Como resultado de esto, normalmente ocurre que muchos de los componentes de mayor frecuencia se redondean a cero y muchos del resto se convierten en pequeños números positivos o negativos.

Como la visión humana también es más sensible a la luminancia que a la crominancia , se puede obtener una mayor compresión trabajando en un espacio de color no RGB que separe los dos (por ejemplo, YCbCr ) y cuantificando los canales por separado. ^[1]

Matrices de cuantificación

Un códec de vídeo típico funciona dividiendo la imagen en bloques discretos (8×8 píxeles en el caso de MPEG ^[1] ). Luego, estos bloques pueden someterse a una transformada de coseno discreta (DCT) para calcular los componentes de frecuencia, tanto horizontal como verticalmente. ^[1] El bloque resultante (del mismo tamaño que el bloque original) luego se multiplica previamente por el código de escala de cuantificación y se divide por elementos por la matriz de cuantificación, y se redondea cada elemento resultante. La matriz de cuantificación está diseñada para proporcionar más resolución a componentes de frecuencia más perceptibles que a componentes menos perceptibles (generalmente frecuencias más bajas que frecuencias altas), además de transformar tantos componentes a 0, que pueden codificarse con mayor eficiencia. Muchos codificadores de vídeo (como DivX , Xvid y 3ivx ) y estándares de compresión (como MPEG-2 y H.264/AVC ) permiten el uso de matrices personalizadas. El alcance de la reducción se puede variar cambiando el código de escala del cuantificador, ocupando mucho menos ancho de banda que una matriz de cuantificador completa. ^[1]

Este es un ejemplo de matriz de coeficientes DCT:

{\begin{bmatrix}-415&-33&-58&35&58&-51&-15&-12\\5&-34&49&18&27&1&-5&3\\-46&14&80&-35&-50&19&7&-18\\-53&21&34&-20&2&34&36&12\\9&-2&9&-5&-32&-15&45&37\\-8&15&-16&7&-8&11&4&7\\19&-28&-2&-26&-2&7&-44&-21\\18&25&-12&-44&35&48&-37&-3\end{bmatrix}}

Una matriz de cuantificación común es:

{\begin{bmatrix}16&11&10&16&24&40&51&61\\12&12&14&19&26&58&60&55\\14&13&16&24&40&57&69&56\\14&17&22&29&51&87&80&62\\18&22&37&56&68&109&103&77\\24&35&55&64&81&104&113&92\\49&64&78&87&103&121&120&101\\72&92&95&98&112&100&103&99\end{bmatrix}}

Dividir la matriz de coeficientes DCT por elementos con esta matriz de cuantificación y redondear a números enteros da como resultado:

{\begin{bmatrix}-26&-3&-6&2&2&-1&0&0\\0&-3&4&1&1&0&0&0\\-3&1&5&-1&-1&0&0&0\\-4&1&2&-1&0&0&0&0\\1&0&0&0&0&0&0&0\\0&0&0&0&0&0&0&0\\0&0&0&0&0&0&0&0\\0&0&0&0&0&0&0&0\end{bmatrix}}

Por ejemplo, usando −415 (el coeficiente DC) y redondeando al entero más cercano

\mathrm {round} \left({\frac {-415}{16}}\right)=\mathrm {round} \left(-25.9375\right)=-26

Normalmente, este proceso dará como resultado matrices con valores principalmente en la esquina superior izquierda (baja frecuencia). Al utilizar un orden en zigzag para agrupar las entradas distintas de cero y ejecutar la codificación de longitud , la matriz cuantificada se puede almacenar de manera mucho más eficiente que la versión no cuantificada. ^[1]

Ver también

Referencias

^ abcde John Wiseman, Introducción a la compresión de vídeo MPEG , https://web.archive.org/web/20111115004238/http://www.john-wiseman.com/technical/MPEG_tutorial.htm