Tipos de imágenes de compresión de video

En el campo de la compresión de vídeo, un fotograma de vídeo se comprime utilizando diferentes algoritmos con diferentes ventajas y desventajas, centrados principalmente en la cantidad de compresión de datos . Estos diferentes algoritmos para fotogramas de vídeo se denominan tipos de imágenes o tipos de fotogramas . Los tres tipos de imágenes principales utilizados en los diferentes algoritmos de vídeo son I , P y B. ^[1] Se diferencian en las siguientes características:

Los fotogramas I son los menos comprimibles, pero no requieren otros fotogramas de vídeo para decodificarlos.
Los fotogramas P pueden utilizar datos de fotogramas anteriores para descomprimirlos y son más comprimibles que los fotogramas I.
Los fotogramas B pueden utilizar fotogramas anteriores y posteriores como referencia de datos para obtener la mayor cantidad de compresión de datos.

Resumen

En la compresión de vídeo se utilizan tres tipos de imágenes (o fotogramas) : fotogramas I, P y B.

Un I-frame ( imagen intracodificada ) es una imagen completa, como un archivo de imagen JPG o BMP .

Un cuadro P (imagen prevista) contiene solo los cambios en la imagen desde un cuadro anterior. Por ejemplo, en una escena en la que un automóvil se mueve sobre un fondo estacionario, solo es necesario codificar los movimientos del automóvil. El codificador no necesita almacenar los píxeles de fondo que no cambian en el marco P, ahorrando así espacio. Los marcos P también se conocen como marcos delta .

Un fotograma B (imagen predicha bidireccional) ahorra aún más espacio al utilizar diferencias entre el fotograma actual y los fotogramas anterior y siguiente para especificar su contenido.

Los fotogramas P y B también se denominan fotogramas inter . El orden en el que se organizan los fotogramas I, P y B se denomina Grupo de imágenes .

Cuadros/marcos

Si bien los términos "marco" e "imagen" a menudo se usan indistintamente, el término imagen es una noción más general, ya que una imagen puede ser un marco o un campo . Un cuadro es una imagen completa y un campo es el conjunto de líneas de escaneo pares o impares que componen una imagen parcial. Por ejemplo, una imagen HD 1080 tiene 1080 líneas (filas) de píxeles. Un campo impar consta de información de píxeles para las líneas 1, 3, 5...1079. Un campo par tiene información de píxeles para las líneas 2, 4, 6...1080. Cuando el vídeo se envía en formato de escaneo entrelazado , cada fotograma se envía en dos campos, el campo de líneas impares seguido del campo de líneas pares.

Un marco utilizado como referencia para predecir otros marcos se llama marco de referencia.

Los fotogramas codificados sin información de otros fotogramas se denominan fotogramas I. Los fotogramas que utilizan predicción a partir de un único fotograma de referencia anterior (o un único fotograma para la predicción de cada región) se denominan fotogramas P. Los fotogramas B utilizan la predicción a partir de un promedio (posiblemente ponderado) de dos fotogramas de referencia, uno anterior y otro posterior.

Rebanadas

En el estándar H.264/MPEG-4 AVC , la granularidad de los tipos de predicción se reduce al "nivel de segmento". Un sector es una región espacialmente distinta de un fotograma que se codifica por separado de cualquier otra región del mismo fotograma. Los cortes I, P y B reemplazan a los fotogramas I, P y B.

Macrobloques

Normalmente, las imágenes (cuadros) se segmentan en macrobloques y se pueden seleccionar tipos de predicción individuales en función de los macrobloques en lugar de ser los mismos para toda la imagen, de la siguiente manera:

Los I-frames solo pueden contener intramacrobloques
Los fotogramas P pueden contener tanto macrobloques intra como macrobloques predichos.
Los marcos B pueden contener macrobloques intra, predichos y bipredichos

Además, en el estándar de codificación de vídeo H.264 , el fotograma se puede segmentar en secuencias de macrobloques llamados sectores y, en lugar de utilizar selecciones de tipo de fotograma I, B y P, el codificador puede elegir el estilo de predicción claramente en cada sector individual. También en H.264 se encuentran varios tipos adicionales de fotogramas/cortes:

Cuadros/cortes SI (Conmutación I): facilita la conmutación entre secuencias codificadas; contiene macrobloques SI (un tipo especial de macrobloque intracodificado).
Cuadros/cortes SP (conmutación P): facilita la conmutación entre secuencias codificadas; contiene macrobloques P y/o I
Estimación de movimiento de cuadros múltiples (hasta 16 cuadros de referencia o 32 campos de referencia)

La estimación de movimiento de cuadros múltiples aumenta la calidad del video, al tiempo que permite la misma relación de compresión. Los marcos SI y SP (definidos para el perfil extendido) mejoran la corrección de errores . Cuando estos fotogramas se utilizan junto con un decodificador inteligente, es posible recuperar las transmisiones de DVD dañados.

Cuadros/porciones intracodificados (I) (cuadros clave)

Los fotogramas I contienen una imagen completa. Están codificados sin referencia a ningún otro marco excepto (partes de) ellos mismos.
Puede ser generado por un codificador para crear un punto de acceso aleatorio (para permitir que un decodificador comience a decodificar correctamente desde cero en esa ubicación de la imagen).
También puede generarse cuando los detalles diferenciadores de la imagen impiden la generación de fotogramas P o B efectivos.
Normalmente requieren más bits para codificar que otros tipos de tramas.

A menudo, los fotogramas I se utilizan para el acceso aleatorio y como referencia para la decodificación de otras imágenes. Los períodos de actualización intra de medio segundo son comunes en aplicaciones como la transmisión de televisión digital y el almacenamiento de DVD . En algunos entornos se pueden utilizar períodos de actualización más prolongados. Por ejemplo, en los sistemas de videoconferencia es habitual enviar I-frames con muy poca frecuencia.

Cuadros/porciones previstos (P)

Requiere la decodificación previa de alguna otra imagen para poder ser decodificada.
Puede contener datos de imagen y desplazamientos de vectores de movimiento y combinaciones de ambos.
Puede hacer referencia a imágenes anteriores en orden de decodificación.
Los diseños estándar más antiguos (como MPEG-2 ) utilizan sólo una imagen previamente decodificada como referencia durante la decodificación y requieren que esa imagen también preceda a la imagen P en el orden de visualización.
En H.264, puede utilizar múltiples imágenes previamente decodificadas como referencias durante la decodificación y puede tener cualquier relación arbitraria de orden de visualización en relación con las imágenes utilizadas para su predicción.
Normalmente requieren menos bits para la codificación en comparación con los fotogramas I.

Cuadros/porciones (macrobloques) bidireccionales previstos (B)

Requiere que se muestre la decodificación previa de los fotogramas siguientes.
Puede contener datos de imagen y/o desplazamientos de vectores de movimiento. Los estándares más antiguos permiten sólo un único vector de compensación de movimiento global para todo el cuadro o un único vector de compensación de movimiento por macrobloque.
Incluir algunos modos de predicción que forman una predicción de una región de movimiento (por ejemplo, un macrobloque o un área más pequeña) promediando las predicciones obtenidas usando dos regiones de referencia diferentes previamente decodificadas. Algunos estándares permiten dos vectores de compensación de movimiento por macrobloque (bipredicción).
En estándares más antiguos (como MPEG-2), los fotogramas B nunca se utilizan como referencia para la predicción de otras imágenes. Como resultado, se puede utilizar una codificación de menor calidad (que requiere menos espacio) para tales cuadros B porque la pérdida de detalle no dañará la calidad de predicción para imágenes posteriores.
H.264 relaja esta restricción y permite que los fotogramas B se utilicen como referencia para la decodificación de otros fotogramas a discreción del codificador.
Los estándares más antiguos (como MPEG-2) utilizan exactamente dos imágenes previamente decodificadas como referencia durante la decodificación y requieren que una de esas imágenes preceda al fotograma B en el orden de visualización y la otra lo siga.
H.264 permite una, dos o más de dos imágenes previamente decodificadas como referencias durante la decodificación, y puede tener cualquier relación arbitraria de orden de visualización en relación con las imágenes utilizadas para su predicción.
La mayor flexibilidad de la recuperación de información significa que los fotogramas B normalmente requieren menos bits para la codificación que los fotogramas I o P.

Ver también

Término de fotograma clave en animación
Compresión de video
intramarco
marco intermedio
Grupo de imágenes aplicación de tipos de marco.
Datamosh
Video

Referencias

^ Playa, Andy; Owen, Aarón (2019). Manual de compresión de vídeo (2ª ed.). Lugar de publicación no identificado: Peachpit Press. ISBN 978-0-13-486621-5. OCLC 1006298938.

enlaces externos

Transmisión de video con cuadros SP y SI