Codificación aritmética binaria adaptativa al contexto

La codificación aritmética binaria adaptativa al contexto ( CABAC ) es una forma de codificación de entropía utilizada en los estándares H.264/MPEG-4 AVC ^[1]^[2] y High Efficiency Video Coding (HEVC). Es una técnica de compresión sin pérdidas , aunque los estándares de codificación de vídeo en los que se utiliza suelen ser para aplicaciones de compresión con pérdidas . CABAC se destaca por proporcionar una compresión mucho mejor que la mayoría de los otros algoritmos de codificación de entropía utilizados en la codificación de vídeo, y es uno de los elementos clave que proporciona al esquema de codificación H.264/AVC una mejor capacidad de compresión que sus predecesores. ^[3]

En H.264/MPEG-4 AVC , CABAC solo se admite en los perfiles principal y superior (pero no en el perfil extendido) del estándar, ya que requiere una mayor cantidad de procesamiento para decodificar que el esquema más simple conocido como adaptable al contexto. codificación de longitud variable (CAVLC) que se utiliza en el perfil de referencia del estándar. CABAC también es difícil de paralelizar y vectorizar, por lo que se pueden combinar otras formas de paralelismo (como el paralelismo de regiones espaciales) con su uso. En HEVC, CABAC se utiliza en todos los perfiles del estándar.

Algoritmo

CABAC se basa en codificación aritmética , con algunas innovaciones y cambios para adaptarla a las necesidades de los estándares de codificación de vídeo: ^[4]

Codifica símbolos binarios, lo que mantiene la complejidad baja y permite el modelado de probabilidad para bits de cualquier símbolo utilizados con más frecuencia.
Los modelos de probabilidad se seleccionan de forma adaptativa en función del contexto local, lo que permite una mejor modelización de las probabilidades, porque los modos de codificación suelen estar bien correlacionados localmente.
Utiliza una división de rango sin multiplicación mediante el uso de rangos de probabilidad cuantificados y estados de probabilidad.

CABAC tiene múltiples modos de probabilidad para diferentes contextos. Primero convierte todos los símbolos no binarios a binarios. Luego, para cada bit, el codificador selecciona qué modelo de probabilidad usar y luego usa información de elementos cercanos para optimizar la estimación de probabilidad. Finalmente se aplica la codificación aritmética para comprimir los datos.

El modelado de contexto proporciona estimaciones de probabilidades condicionales de los símbolos de codificación. Utilizando modelos de contexto adecuados, se puede explotar una redundancia entre símbolos determinada cambiando entre diferentes modelos de probabilidad según los símbolos ya codificados en la vecindad del símbolo actual a codificar. El modelado de contexto es responsable de la mayor parte del ahorro aproximado del 10% de CABAC en velocidad de bits respecto al método de codificación de entropía CAVLC .

Codificar un símbolo de datos implica las siguientes etapas.

Binarización: CABAC utiliza codificación aritmética binaria, lo que significa que solo se codifican decisiones binarias (1 o 0). Un símbolo con valores no binarios (por ejemplo, un coeficiente de transformación o un vector de movimiento) se "binariza" o se convierte en un código binario antes de la codificación aritmética. Este proceso es similar al proceso de convertir un símbolo de datos en un código de longitud variable, pero el código binario se codifica aún más (mediante el codificador aritmético) antes de la transmisión.
Las etapas se repiten para cada bit (o "bin") del símbolo binarizado.
Selección del modelo de contexto: un "modelo de contexto" es un modelo de probabilidad para uno o más contenedores del símbolo binarizado. Este modelo se puede elegir entre una selección de modelos disponibles dependiendo de las estadísticas de los símbolos de datos codificados recientemente. El modelo de contexto almacena la probabilidad de que cada contenedor sea "1" o "0".
Codificación aritmética: un codificador aritmético codifica cada contenedor según el modelo de probabilidad seleccionado. Tenga en cuenta que solo hay dos subrangos para cada contenedor (correspondientes a "0" y "1").
Actualización de probabilidad: el modelo de contexto seleccionado se actualiza en función del valor codificado real (por ejemplo, si el valor del contenedor era "1", el recuento de frecuencia de "1" aumenta).

Ejemplo

1. Binarice el valor MVDx, la diferencia del vector de movimiento en la dirección x .

El primer bit de la palabra clave binarizada es bin 1; el segundo bit es el contenedor 2; etcétera.

2. Elija un modelo de contexto para cada contenedor. Se selecciona uno de los 3 modelos para el contenedor 1, según los valores MVD codificados anteriormente. Se calcula la norma L1 de dos valores previamente codificados, e _{k ,:}

Si e _k es pequeño, entonces existe una alta probabilidad de que el MVD actual tenga una magnitud pequeña; por el contrario, si e _k es grande, entonces es más probable que el MVD actual tenga una magnitud grande. Seleccionamos una tabla de probabilidad (modelo de contexto) en consecuencia. Los contenedores restantes se codifican utilizando uno de los 4 modelos de contexto adicionales:

3. Codifique cada contenedor. El modelo de contexto seleccionado proporciona dos estimaciones de probabilidad: la probabilidad de que el contenedor contenga "1" y la probabilidad de que el contenedor contenga "0". Estas estimaciones determinan los dos subrangos que utiliza el codificador aritmético para codificar el contenedor.

4. Actualizar los modelos de contexto. Por ejemplo, si se seleccionó el modelo de contexto 2 para el contenedor 1 y el valor del contenedor 1 era "0", se incrementa el recuento de frecuencia de "0". Esto significa que la próxima vez que se seleccione este modelo, la probabilidad de obtener un “0” será ligeramente mayor. Cuando el número total de ocurrencias de un modelo excede un valor umbral, los recuentos de frecuencia para “0” y “1” se reducirán, lo que de hecho otorga mayor prioridad a las observaciones recientes.

El motor de decodificación aritmética.

El decodificador aritmético se describe con cierto detalle en la Norma. Tiene tres propiedades distintas:

La estimación de probabilidad se realiza mediante un proceso de transición entre 64 estados de probabilidad separados para el "Símbolo menos probable" (LPS, la menos probable de las dos decisiones binarias "0" o "1").
El rango R que representa el estado actual del codificador aritmético se cuantifica en un pequeño rango de valores preestablecidos antes de calcular el nuevo rango en cada paso, lo que hace posible calcular el nuevo rango usando una tabla de consulta (es decir, sin multiplicación). ).
Se define un proceso simplificado de codificación y decodificación para símbolos de datos con una distribución de probabilidad casi uniforme.

La definición del proceso de decodificación está diseñada para facilitar implementaciones de baja complejidad de codificación y decodificación aritmética. En general, CABAC proporciona una eficiencia de codificación mejorada en comparación con la codificación basada en CAVLC, a expensas de una mayor complejidad computacional.

Historia

En 1986, los investigadores de IBM Kottappuram MA Mohiuddin y Jorma Johannen Rissanen presentaron una patente para un algoritmo de codificación aritmética binaria sin multiplicación. ^[5]^[6] En 1988, un equipo de investigación de IBM que incluía a RB Arps, TK Truong, DJ Lu, WB Pennebaker, L. Mitchell y GG Langdon presentaron un algoritmo de codificación aritmética binaria adaptativa (ABAC) llamado Q-Coder. ^[7]^[8]

Las patentes y artículos de investigación mencionados anteriormente, junto con varios otros de IBM y Mitsubishi Electric , fueron citados posteriormente por el CCITT y el Joint Photographic Experts Group como base para el algoritmo de codificación aritmética binaria adaptativa del formato de compresión de imágenes JPEG en 1992. ^[5] Sin embargo, los codificadores y los decodificadores del formato de archivo JPEG, que tiene opciones tanto para codificación Huffman como para codificación aritmética, generalmente solo admiten la opción de codificación Huffman, que originalmente se debió a problemas de patentes, aunque las patentes de codificación aritmética de JPEG ^[9] han expirado desde entonces debido a la antigüedad. del estándar JPEG. ^[10] El primer uso informado de codificación aritmética binaria adaptativa en la compresión de video en movimiento fue en una propuesta de investigadores de IBM al grupo MPEG en 1989. ^[11]^[12] Esta propuesta amplió el uso de codificación aritmética desde JPEG intracuadro a video intercuadro. codificación.

En 1999, Youngjun Yoo ( Texas Instruments ), Young Gap Kwon y Antonio Ortega ( Universidad del Sur de California ) presentaron una forma de codificación aritmética binaria que se adapta al contexto. ^[13] El algoritmo moderno de codificación aritmética binaria adaptativa al contexto (CABAC) se introdujo comercialmente con el formato H.264/MPEG-4 AVC en 2003. ^[14] La mayoría de las patentes para el formato AVC están en manos de Panasonic , Godo Kaisha. Puente IP y LG Electronics . ^[15]

Ver también

Referencias

^ Richardson, Iain EG, Libro blanco de H.264 / MPEG-4 Parte 10, 17 de octubre de 2002.
^ Richardson, Iain EG (2003). Compresión de vídeo H.264 y MPEG-4: codificación de vídeo para multimedia de próxima generación . Chichester: John Wiley & Sons Ltd.
^ Ze-Nian Li; Mark S. Drew; Jiangchuan Liu (9 de abril de 2014). Fundamentos de Multimedia. Medios de ciencia y negocios de Springer. ISBN 978-3-319-05290-8.
^ Marpe, D., Schwarz, H. y Wiegand, T., Codificación aritmética binaria adaptativa basada en contexto en el estándar de compresión de video H.264/AVC, IEEE Trans. Circuitos y sistemas para tecnología de vídeo , vol. 13, núm. 7, págs. 620–636, julio de 2003.
^ ab "T.81 - COMPRESIÓN DIGITAL Y CODIFICACIÓN DE IMÁGENES FIJAS DE TONOS CONTINUOS - REQUISITOS Y DIRECTRICES" (PDF) . CCITT . Septiembre de 1992 . Consultado el 12 de julio de 2019 .
^ Patente estadounidense 4.652.856
^ Arps, RB; Truong, TK; Lu, DJ; Pasco, RC; Friedman, TD (noviembre de 1988). "Un chip VLSI multiusos para la compresión de datos adaptativa de imágenes de dos niveles". Revista IBM de investigación y desarrollo . 32 (6): 775–795. doi :10.1147/rd.326.0775. ISSN 0018-8646.
^ Pennebaker, WB; Mitchell, JL; Langdon, GG; Arps, RB (noviembre de 1988). "Una descripción general de los principios básicos del codificador aritmético binario adaptativo Q-Coder". Revista IBM de investigación y desarrollo . 32 (6): 717–726. doi :10.1147/rd.326.0717. ISSN 0018-8646.
^ "Recomendación T.81 (1992) Corrigendum 1 (04/01)". Recomendación T.81 (1992) . Unión Internacional de Telecomunicaciones. 9 de noviembre de 2004 . Consultado el 3 de febrero de 2011 .
^ Estándar de compresión de datos de imágenes fijas JPEG , WB Pennebaker y JL Mitchell , Kluwer Academic Press, 1992. ISBN 0-442-01272-1
^ Codificación DCT para almacenamiento de vídeo en movimiento mediante codificación aritmética adaptativa , CA Gonzales. L. Allman, T. McCarthy, P. Wendt y AN Akansu, Procesamiento de señales: comunicación de imágenes, 2, 145, 1990.
^ Codificación de secuencias de vídeo en movimiento para el entorno MPEG mediante codificación aritmética , E. Viscito y C. Gonzales, SPIE Visual Communications and Image Processing '90, 2 al 4 de octubre de 1990.
^ Ortega, A. (octubre de 1999). "Compresión de dominio de imagen integrada mediante modelos de contexto". Actas de la Conferencia internacional de 1999 sobre procesamiento de imágenes (Cat. 99CH36348) . vol. 1. págs. 477–481 vol.1. doi :10.1109/ICIP.1999.821655. ISBN 0-7803-5467-2. S2CID 27303716.
^ "Codificación aritmética binaria adaptativa basada en contexto (CABAC)". Instituto Fraunhofer Heinrich Hertz . Consultado el 13 de julio de 2019 .
^ "AVC/H.264 - Lista de patentes" (PDF) . MPEG LA . Consultado el 6 de julio de 2019 .