Cuantización (procesamiento de imágenes)

La cuantificación , que se utiliza en el procesamiento de imágenes , es una técnica de compresión con pérdida que se logra comprimiendo un rango de valores en un único valor cuántico (discreto). Cuando se reduce el número de símbolos discretos en un flujo determinado, el flujo se vuelve más comprimible. Por ejemplo, reducir el número de colores necesarios para representar una imagen digital permite reducir su tamaño de archivo. Las aplicaciones específicas incluyen la cuantificación de datos DCT en JPEG y la cuantificación de datos DWT en JPEG 2000 .

Cuantización de color

La cuantificación del color reduce la cantidad de colores utilizados en una imagen; esto es importante para mostrar imágenes en dispositivos que admiten una cantidad limitada de colores y para comprimir de manera eficiente ciertos tipos de imágenes. La mayoría de los editores de mapas de bits y muchos sistemas operativos tienen soporte integrado para la cuantificación del color. Los algoritmos de cuantificación del color modernos más populares incluyen el algoritmo de color más cercano (para paletas fijas), el algoritmo de corte medio y un algoritmo basado en octrees .

Es común combinar la cuantificación de color con el tramado para crear una impresión de una mayor cantidad de colores y eliminar los artefactos de bandas .

Cuantización en escala de grises

La cuantificación en escala de grises, también conocida como cuantificación de niveles de grises, es un proceso de procesamiento de imágenes digitales que implica reducir el número de niveles de intensidad únicos (tonos de gris) en una imagen, al tiempo que se conserva su información visual esencial. Esta técnica se utiliza habitualmente para simplificar imágenes, reducir los requisitos de almacenamiento y facilitar las operaciones de procesamiento. En la cuantificación en escala de grises, una imagen con N niveles de intensidad se convierte en una imagen con un número reducido de niveles, normalmente L niveles, donde L < N . El proceso implica asignar el valor de intensidad original de cada píxel a uno de los nuevos niveles de intensidad. Uno de los métodos más simples de cuantificación en escala de grises es la cuantificación uniforme, donde el rango de intensidad se divide en intervalos iguales y cada intervalo se representa mediante un único valor de intensidad. Supongamos que tenemos una imagen con niveles de intensidad que van de 0 a 255 (escala de grises de 8 bits). Si queremos cuantificarlo en 4 niveles, los intervalos serían [0-63], [64-127], [128-191] y [192-255]. Cada intervalo estaría representado por el valor de intensidad del punto medio, lo que daría como resultado niveles de intensidad de 31, 95, 159 y 223 respectivamente.

La fórmula para la cuantificación uniforme es:

$Q(x)=\left\lfloor {\frac {x}{\Delta }}\right\rfloor \times \Delta +{\frac {\Delta }{2}}$ Dónde:

Q ( x ) es el valor de intensidad cuantificado.
x es el valor de intensidad original.
Δ es el tamaño de cada intervalo de cuantificación.

Cuantifiquemos un valor de intensidad original de 147 a 3 niveles de intensidad.

Valor de intensidad original: x = 147

Niveles de intensidad deseados: L =3

Primero necesitamos calcular el tamaño de cada intervalo de cuantificación:

$\Delta ={\frac {255}{L-1}}={\frac {255}{3-1}}=127.5$

Utilizando la fórmula de cuantificación uniforme:

$Q(x)=\left\lfloor {\frac {147}{127.5}}\right\rfloor \times 127.5+{\frac {127.5}{2}}$

$Q(x)=\left\lfloor 1.15294118\right\rfloor \times 127.5+{\frac {127.5}{2}}$

$Q(x)=1\times 127.5+63.75=191.25$

Redondeando 191,25 al entero más cercano, obtenemos $Q(x)=191$

Entonces, el valor de intensidad cuantificado de 147 a 3 niveles es 191.

Cuantización de frecuencia para compresión de imágenes

El ojo humano es bastante bueno para ver pequeñas diferencias de brillo en un área relativamente grande, pero no tan bueno para distinguir la intensidad exacta de una variación de brillo de alta frecuencia (que varía rápidamente). Este hecho permite reducir la cantidad de información necesaria al ignorar los componentes de alta frecuencia. Esto se hace simplemente dividiendo cada componente en el dominio de frecuencia por una constante para ese componente y luego redondeando al entero más cercano. Esta es la principal operación con pérdida en todo el proceso. Como resultado de esto, es típico que muchos de los componentes de frecuencia más alta se redondeen a cero, y muchos del resto se conviertan en pequeños números positivos o negativos.

Como la visión humana también es más sensible a la luminancia que a la crominancia , se puede obtener una mayor compresión trabajando en un espacio de color no RGB que separa los dos (por ejemplo, YCbCr ) y cuantificando los canales por separado. ^[1]

Matrices de cuantificación

Un códec de vídeo típico funciona dividiendo la imagen en bloques discretos (8×8 píxeles en el caso de MPEG ^[1] ). Estos bloques pueden someterse a una transformada de coseno discreta (DCT) para calcular los componentes de frecuencia, tanto horizontal como verticalmente. ^[1] El bloque resultante (del mismo tamaño que el bloque original) se premultiplica por el código de escala de cuantificación y se divide elemento por elemento por la matriz de cuantificación, y se redondea cada elemento resultante. La matriz de cuantificación está diseñada para proporcionar más resolución a los componentes de frecuencia más perceptibles sobre los componentes menos perceptibles (normalmente frecuencias más bajas sobre frecuencias altas) además de transformar tantos componentes como sea posible a 0, que se puede codificar con la mayor eficiencia. Muchos codificadores de vídeo (como DivX , Xvid y 3ivx ) y estándares de compresión (como MPEG-2 y H.264/AVC ) permiten utilizar matrices personalizadas. El alcance de la reducción se puede variar modificando el código de escala del cuantificador, ocupando así mucho menos ancho de banda que una matriz cuantificadora completa. ^[1]

Este es un ejemplo de matriz de coeficientes DCT:

{\begin{bmatrix}-415&-33&-58&35&58&-51&-15&-12\\5&-34&49&18&27&1&-5&3\\-46&14&80&-35&-50&19&7&-18\\-53&21&34&-20&2&34&36&12\\9&-2&9&-5&-32&-15&45&37\\-8&15&-16&7&-8&11&4&7\\19&-28&-2&-26&-2&7&-44&-21\\18&25&-12&-44&35&48&-37&-3\end{bmatrix}}

Una matriz de cuantificación común es:

{\begin{bmatrix}16&11&10&16&24&40&51&61\\12&12&14&19&26&58&60&55\\14&13&16&24&40&57&69&56\\14&17&22&29&51&87&80&62\\18&22&37&56&68&109&103&77\\24&35&55&64&81&104&113&92\\49&64&78&87&103&121&120&101\\72&92&95&98&112&100&103&99\end{bmatrix}}

Dividiendo la matriz de coeficientes DCT elemento por elemento con esta matriz de cuantificación y redondeando a números enteros se obtiene:

{\begin{bmatrix}-26&-3&-6&2&2&-1&0&0\\0&-3&4&1&1&0&0&0\\-3&1&5&-1&-1&0&0&0\\-4&1&2&-1&0&0&0&0\\1&0&0&0&0&0&0&0\\0&0&0&0&0&0&0&0\\0&0&0&0&0&0&0&0\\0&0&0&0&0&0&0&0\end{bmatrix}}

Por ejemplo, utilizando −415 (el coeficiente DC) y redondeando al entero más cercano

\mathrm {round} \left({\frac {-415}{16}}\right)=\mathrm {round} \left(-25.9375\right)=-26

Normalmente, este proceso dará como resultado matrices con valores principalmente en la esquina superior izquierda (baja frecuencia). Al utilizar un orden en zigzag para agrupar las entradas distintas de cero y la codificación de longitud de ejecución , la matriz cuantificada se puede almacenar de forma mucho más eficiente que la versión no cuantificada. ^[1]

Véase también

Referencias

^ abcde John Wiseman, Introducción a la compresión de video MPEG , https://web.archive.org/web/20111115004238/http://www.john-wiseman.com/technical/MPEG_tutorial.htm

^[1]

^ Smith, Steven W. (2003). Procesamiento de señales digitales: una guía práctica para ingenieros y científicos . Serie Desmitificando la tecnología. Ámsterdam, Boston: Newnes. ISBN 978-0-7506-7444-7.