grupo de fotos

En la codificación de vídeo , un grupo de imágenes , o estructura GOP , especifica el orden en el que se organizan los intra y entre fotogramas . El GOP es una colección de imágenes sucesivas dentro de una secuencia de vídeo codificada. Cada flujo de vídeo codificado consta de GOP sucesivos, a partir de los cuales se generan los fotogramas visibles. Encontrar un nuevo GOP en una secuencia de vídeo comprimido significa que el decodificador no necesita ningún fotograma anterior para decodificar los siguientes y permite una búsqueda rápida a través del vídeo.

Elementos

Un GOP puede contener los siguientes tipos de imágenes:

Marco I (imagen intracodificada, a veces también denominada incorrectamente fotograma clave ^[1] ): una imagen que se codifica independientemente de todas las demás imágenes. Cada GOP comienza (en orden de decodificación) con este tipo de cuadro.
- Cuadro IDR (Actualización instantánea del decodificador): cuadro I con una marca que indica que ningún cuadro P posterior tiene referencias que lleguen más atrás que este cuadro I. Mediante el uso de estos marcos IDR, se forman GOP cerrados que no pueden hacer referencia a marcos fuera del GOP. ^[2] Los IDR son los fotogramas clave verdaderos junto con los fotogramas de acceso aleatorio limpios (puntos de recuperación).
Cuadro P (imagen codificada predictiva): contiene información de diferencia con compensación de movimiento en relación con imágenes previamente decodificadas. En diseños más antiguos como MPEG-1 , H.262 / MPEG-2 y H.263 , cada cuadro P solo puede hacer referencia a una imagen, y esa imagen debe preceder al cuadro P en el orden de visualización y en el orden de decodificación, y el La referencia debe ser un marco I o P. Estas restricciones no se aplican en los estándares más nuevos H.264/MPEG-4 AVC y HEVC .
Cuadro B (imagen codificada bipredictiva): contiene información de diferencia con compensación de movimiento en relación con imágenes previamente decodificadas. En diseños más antiguos, como MPEG-1 y H.262/MPEG-2, cada cuadro B solo puede hacer referencia a dos cuadros, el que precede al cuadro B en el orden de visualización y el que sigue, y todas las imágenes a las que se hace referencia deben ser I o Marcos P. Estas restricciones no se aplican en los estándares más nuevos H.264/MPEG-4 AVC y HEVC . A veces, un códec utilizará fotogramas B unidireccionales. Este es un fotograma P que, si bien no utiliza datos de un fotograma futuro, ningún otro fotograma depende de él. Una propiedad fundamental de los fotogramas B es que se pueden eliminar sin afectar la correcta decodificación de otros fotogramas.
Cuadro D (imagen codificada directa de CC): sirve como representación de acceso rápido de un cuadro para evitar pérdidas o avance rápido. Los fotogramas D sólo se utilizan en vídeo MPEG-1 .

Un cuadro I indica el comienzo de un Partido Republicano. Luego siguen varios fotogramas P y B. En diseños más antiguos, la estructura de ordenación y referencia permitida está relativamente restringida. ^[3]

Los fotogramas I contienen la imagen completa y no requieren ninguna información adicional para reconstruirlos. Normalmente, los codificadores utilizan estructuras GOP que hacen que cada cuadro I sea un "punto de acceso aleatorio limpio", de modo que la decodificación pueda comenzar limpiamente en un cuadro I y cualquier error dentro de la estructura GOP se corrija después de procesar un cuadro I correcto.

En los diseños más nuevos que se encuentran en H.264/MPEG-4 AVC y HEVC , los codificadores tienen mucha más flexibilidad a la hora de hacer referencia a estructuras. Pueden usar las mismas estructuras de referencia que se usaron anteriormente en diseños más antiguos, o pueden usar más imágenes como referencias y pueden usar un orden más flexible del orden de codificación en relación con el orden de visualización. También se les permite utilizar fotogramas B como referencia al codificar otros fotogramas (B o P). Esta flexibilidad adicional puede mejorar la eficiencia de la compresión, pero puede provocar la propagación de errores si algunos datos se pierden o se corrompen. Una estructura popular para usar con los diseños más nuevos es el uso de una jerarquía de marcos B. Los fotogramas B jerárquicos pueden proporcionar una muy buena eficiencia de compresión y también pueden limitar la propagación de errores, ya que la jerarquía puede garantizar que el número de imágenes afectadas por cualquier problema de corrupción de datos esté estrictamente limitado. ^[4]

Generalmente, cuantos más fotogramas tenga la transmisión de vídeo, más editable será. Sin embargo, tener más fotogramas I aumenta sustancialmente la velocidad de bits necesaria para codificar el vídeo.

Estructura

La estructura del Partido Republicano suele denominarse mediante dos números, por ejemplo, $M =3, N =12$ . El primer número indica la distancia entre dos marcos de anclaje (I o P), también conocida como la longitud de un "mini-GOP". ^[5] El segundo indica la distancia entre dos imágenes completas (I-frames): es el tamaño GOP. ^[6] En lugar del parámetro M, se puede utilizar el recuento máximo de fotogramas B entre dos fotogramas de anclaje consecutivos; este es el enfoque utilizado por ffmpeg . ^[7]

Ejemplos:

Para $M =3, N =12$ , la estructura del Partido Republicano es IBBPBBPBBPBB . Hay 2 marcos B entre dos marcos de anclaje consecutivos.
Para la secuencia IBBBBPBBBBPBBBB , tamaño de GOP $N$ $=15$ , distancia de anclaje $M$ $=5$ . Hay 4 marcos B entre dos marcos de anclaje consecutivos.

No es necesario que la estructura del GOP permanezca fija durante la codificación. Variar $N$ para insertar un fotograma I en el cambio de escena es una técnica bien conocida. ^[8] Las técnicas más nuevas también varían $M$ según la cantidad de movimiento en el video. ^[9]

Conceptos adicionales

Con diseños H.264 y posteriores que permiten estructuras de referencia altamente flexibles, un fotograma B en un GOP puede hacer referencia a un fotograma en un GOP diferente, en particular incluso antes del fotograma I, lo que hace que el fotograma I no sea IDR (no sea un fotograma clave). ). ^[10] Un GOP que contiene cualquier marco de referencia externa se conoce como "GOP abierto". Lo opuesto es un Partido Republicano autónomo, conocido como "Partido Republicano cerrado". ^[5] En el orden de codificación, el Partido Republicano puede comenzar con un fotograma B, pero no puede terminar con uno. Open GOP comienza con un marco B y es un poco más eficiente porque comenzar con un marco I significa que se debe agregar un marco P adicional al final (un GOP no puede terminar con un marco B). ^[11]

Ver también

Referencias

^ "Fotogramas clave, intercuadros y compresión de vídeo". 13 de abril de 2021.
^ McCarrel, Jarrod (4 de mayo de 2022). "¿Qué es un" grupo de imágenes "y por qué es importante?". Tecnologías Venera . Consultado el 22 de junio de 2024 .
^ "Marcos B".
^ "B-Frames jerárquicos o B-Pyramid: compresión de vídeo". www.ramugedia.com .
^ ab Vijayanagar, Krishna Rao (17 de diciembre de 2020). "GOP cerrado y GOP abierto - Explicación simplificada - OTTVerse". ottverse.com .
^ "Manual del usuario del compresor 4".
^ "Documentación de códecs FFmpeg". ffmpeg.org . bf entero (codificación, vídeo) Establece el número máximo de fotogramas B entre fotogramas que no son B.
^ "Asignación adaptable dentro de trama y estimación de velocidad de bits para longitud variable de GOP en H.264". Transacciones IEEE sobre circuitos y sistemas para tecnología de vídeo . 16 (10): 1271-1279. Octubre de 2006. doi :10.1109/TCSVT.2006.881856.
^ "Docs/Appendix-Adaptive-Prediction-Structure.md · master · Alliance for Open Media / SVT-AV1 · GitLab". GitLab . 23 de agosto de 2023.
^ "¿Fotogramas rotos debido a H.264 Open-GOP (DVB MPEG-TS)?". Foro Avidemux . 2024-07-01 . Consultado el 1 de julio de 2024 .
^ "Compresión MPEG y H.264" (PDF) . Consultado el 2 de julio de 2024 .