Grupo de imágenes

En la codificación de vídeo , un grupo de imágenes , o estructura GOP , especifica el orden en el que se disponen los intra y los inter fotogramas . El GOP es una colección de imágenes sucesivas dentro de un flujo de vídeo codificado. Cada flujo de vídeo codificado consta de GOP sucesivos, a partir de los cuales se generan los fotogramas visibles. Encontrar un nuevo GOP en un flujo de vídeo comprimido significa que el decodificador no necesita ningún fotograma anterior para decodificar los siguientes y permite una búsqueda rápida en el vídeo.

Elementos

Un GOP puede contener los siguientes tipos de imágenes:

I-frame (imagen intracodificada, también llamada a veces incorrectamente fotograma clave ^[1]^{[ verificación fallida ]} ): imagen que se codifica independientemente de todas las demás imágenes. Cada GOP comienza (en orden de decodificación) con este tipo de fotograma.
- Cuadro IDR (Actualización instantánea del decodificador): cuadro I con una marca que indica que ningún cuadro P posterior tiene referencias que se remontan más allá de este cuadro I. Mediante el uso de estos cuadros IDR, se forman GOP cerrados que no pueden hacer referencia a cuadros fuera del GOP. ^[2] Los IDR son los cuadros clave verdaderos junto con cuadros de acceso aleatorio limpios (puntos de recuperación).
Cuadro P (imagen codificada predictiva): contiene información de diferencia compensada por movimiento en relación con imágenes decodificadas previamente. En diseños más antiguos, como MPEG-1 , H.262 / MPEG-2 y H.263 , cada cuadro P solo puede hacer referencia a una imagen, y esa imagen debe preceder al cuadro P en el orden de visualización así como en el orden de decodificación, y la referencia debe ser un cuadro I o P. Estas restricciones no se aplican en los estándares más nuevos H.264/MPEG-4 AVC y HEVC .
Cuadro B (imagen codificada bipredictiva): contiene información de diferencia compensada por movimiento en relación con imágenes decodificadas previamente. En diseños más antiguos, como MPEG-1 y H.262/MPEG-2, cada cuadro B solo puede hacer referencia a dos cuadros, el que precede al cuadro B en el orden de visualización y el que le sigue, y todas las imágenes a las que se hace referencia deben ser cuadros I o P. Estas restricciones no se aplican en los estándares más nuevos H.264/MPEG-4 AVC y HEVC . A veces, un códec utilizará cuadros B unidireccionales. Se trata de un cuadro P que, si bien no utiliza datos de un cuadro futuro, ningún otro cuadro depende de él. Una propiedad fundamental de los cuadros B es que se pueden descartar sin afectar la decodificación correcta de otros cuadros.
Cuadro D (imagen codificada directamente en DC): sirve como representación de acceso rápido de un cuadro para lograr robustez frente a pérdidas o avance rápido. Los cuadros D solo se utilizan en video MPEG-1 .

Un marco I indica el comienzo de un GOP. Después, siguen varios marcos P y B. En diseños más antiguos, la estructura de ordenación y referencia permitida está relativamente restringida. ^[3]

Los fotogramas I contienen la imagen completa y no requieren ninguna información adicional para reconstruirlos. Normalmente, los codificadores utilizan estructuras GOP que hacen que cada fotograma I sea un "punto de acceso aleatorio limpio", de modo que la decodificación pueda comenzar de forma limpia en un fotograma I y cualquier error dentro de la estructura GOP se corrija después de procesar un fotograma I correcto.

En los diseños más nuevos que se encuentran en H.264/MPEG-4 AVC y HEVC , los codificadores tienen mucha más flexibilidad en cuanto a las estructuras de referencia. Pueden utilizar las mismas estructuras de referencia que se utilizaban anteriormente en diseños más antiguos, o pueden utilizar más imágenes como referencias y pueden utilizar un ordenamiento más flexible del orden de codificación en relación con el orden de visualización. También se les permite utilizar fotogramas B como referencias al codificar otros fotogramas (B o P). Esta flexibilidad adicional puede mejorar la eficiencia de la compresión, pero puede provocar la propagación de errores si algunos datos se pierden o se corrompen. Una estructura popular para su uso con los diseños más nuevos es el uso de una jerarquía de fotogramas B. Los fotogramas B jerárquicos pueden proporcionar una muy buena eficiencia de compresión y también pueden limitar la propagación de errores, ya que la jerarquía puede garantizar que el número de imágenes afectadas por cualquier problema de corrupción de datos esté estrictamente limitado. ^[4]

En general, cuanto más fotogramas I tenga el flujo de vídeo, más editable será. Sin embargo, tener más fotogramas I aumenta sustancialmente la velocidad de bits necesaria para codificar el vídeo.

Estructura

La estructura del GOP se suele denominar con dos números, por ejemplo, $M = 3, N = 12.$ El primer número indica la distancia entre dos fotogramas de anclaje (I o P), también conocida como la longitud de un "mini-GOP". ^[5] El segundo indica la distancia entre dos imágenes completas (fotogramas I): es el tamaño del GOP. ^[6] En lugar del parámetro M, se puede utilizar el recuento máximo de fotogramas B entre dos fotogramas de anclaje consecutivos; este es el enfoque utilizado por ffmpeg . ^[7]

Ejemplos:

Para $M = 3, N = 12$ , la estructura GOP es IBBPBBPBBPBB . Hay 2 cuadros B entre dos cuadros de anclaje consecutivos.
Para la secuencia IBBBBPBBBBPBBBB , tamaño de GOP $N$ $= 15$ , distancia de anclaje $M$ $= 5.$ Hay 4 fotogramas B entre dos fotogramas de anclaje consecutivos.

La estructura GOP no necesita permanecer fija durante toda la codificación. La variación de $N$ para insertar un fotograma I en un cambio de escena es una técnica bien conocida. ^[8] Las técnicas más nuevas también varían $M$ en función de la cantidad de movimiento en el video. ^[9]

Conceptos adicionales

Con H.264 y diseños posteriores que permiten estructuras de referencia altamente flexibles, un cuadro B en un GOP puede hacer referencia a un cuadro en un GOP diferente, en particular incluso antes del cuadro I, lo que hace que el cuadro I no sea IDR (no sea un cuadro clave). ^[10] Un GOP que contiene cualquier cuadro de referencia externa de este tipo se conoce como un "GOP abierto". Lo opuesto es un GOP autónomo, conocido como un "GOP cerrado". ^[5] En orden de codificación, un GOP puede comenzar con un cuadro B, pero no puede terminar con uno. El GOP abierto comienza con un cuadro B y es un poco más eficiente porque comenzar con un cuadro I significa que se debe agregar un cuadro P adicional al final (un GOP no puede terminar con un cuadro B). ^[11]

Véase también

Referencias

^ "Fotogramas clave, interfotogramas y compresión de vídeo". 13 de abril de 2021.
^ McCarrel, Jarrod (4 de mayo de 2022). "¿Qué es un "grupo de imágenes" y por qué es importante?". Venera Technologies . Consultado el 22 de junio de 2024 .
^ "Fotogramas B".
^ "Cuadros B jerárquicos o pirámide B - Compresión de vídeo". www.ramugedia.com .
^ ab Vijayanagar, Krishna Rao (17 de diciembre de 2020). "Partido Republicano Cerrado y Partido Republicano Abierto: explicación simplificada - OTTVerse". ottverse.com .
^ "Manual del usuario del compresor 4".
^ "Documentación de códecs FFmpeg". ffmpeg.org . bf entero (codificación, vídeo) Establece el número máximo de fotogramas B entre fotogramas que no son B.
^ Jeehong Lee; Ilhong Shin; Hyunwook Park (octubre de 2006). "Asignación intra-cuadro adaptativa y estimación de tasa de bits para longitud de GOP variable en H.264". IEEE Transactions on Circuits and Systems for Video Technology . 16 (10): 1271–1279. doi :10.1109/TCSVT.2006.881856.
^ "Docs/Appendix-Adaptive-Prediction-Structure.md · master · Alliance for Open Media / SVT-AV1 · GitLab". GitLab . 23 de agosto de 2023.
^ "¿Cuadros rotos debido a H.264 Open-GOP (DVB MPEG-TS)?". Foro de Avidemux . 2024-07-01 . Consultado el 2024-07-01 .
^ "Compresión MPEG y H.264" (PDF) . Consultado el 2 de julio de 2024 .