stringtranslate.com

VC-6

Logotipo de VC-6

SMPTE ST 2117-1 , [1] conocido informalmente como VC-6 , es un formato de codificación de vídeo . [2]

Descripción general

El códec VC-6 está optimizado para aplicaciones de codificación intermedia, mezzanine o de contribución. [2] Por lo general, estas aplicaciones implican la compresión de composiciones terminadas para edición, contribución, distribución primaria, archivo y otras aplicaciones donde es necesario preservar la calidad de la imagen lo más cerca posible del original, al mismo tiempo que se reducen las tasas de bits y se optimizan los requisitos de procesamiento, energía y almacenamiento. VC-6, al igual que otros códecs de esta categoría [3] [4], utiliza solo compresiones intra-cuadro , donde cada cuadro se almacena de forma independiente y se puede decodificar sin dependencias de ningún otro cuadro. [5] El códec implementa compresión sin pérdida y con pérdida , según los parámetros de codificación que se hayan seleccionado. Se estandarizó en 2020. V-Nova ha implementado variantes anteriores del códec desde 2015 bajo el nombre comercial Perseus. El códec se basa en estructuras de datos jerárquicas llamadas s-trees y no implica compresión por transformada DCT o wavelet . El mecanismo de compresión es independiente de los datos que se comprimen y se puede aplicar tanto a píxeles como a otros datos que no sean imágenes. [6]

A diferencia de los códecs basados ​​en DCT , VC-6 se basa en estructuras jerárquicas y repetibles de árboles s que son similares a los árboles cuádruples modificados . Estas estructuras simples proporcionan capacidades intrínsecas, como paralelismo masivo [7] y la capacidad de elegir el tipo de filtrado utilizado para reconstruir imágenes de mayor resolución a partir de imágenes de menor resolución. [8] En el estándar VC-6 [2] se proporciona un muestreador ascendente desarrollado con una red neuronal convolucional en bucle para optimizar el detalle en la imagen reconstruida, sin requerir una gran sobrecarga computacional. La capacidad de navegar espacialmente dentro del flujo de bits VC-6 en múltiples niveles [2] también proporciona la capacidad de que los dispositivos de decodificación apliquen más recursos a diferentes regiones de la imagen, lo que permite que las aplicaciones de región de interés operen en flujos de bits comprimidos sin requerir una decodificación de la imagen de resolución completa. [9]

Historia

En la NAB Show de 2015, V-Nova afirmó "ganancias de compresión promedio de 2x–3x, en todos los niveles de calidad, en escenarios operativos prácticos en tiempo real frente a H.264 , HEVC y JPEG2000 ". [10] Hacer este anuncio el 1 de abril antes de una importante feria comercial atrajo la atención de muchos expertos en compresión. [11] Desde entonces, V-Nova ha implementado y licenciado la tecnología, conocida en ese momento como Perseus, [10] tanto en aplicaciones de contribución como de distribución en todo el mundo, incluidas Sky Italia , [12] Fast Filmz, [13] [14] Harmonic Inc y otras. Una variante de la tecnología optimizada para mejorar el códec de distribución pronto se estandarizará como MPEG-5 Part-2 LCEVC . [15] [16] [17]

Conceptos básicos

Aviones

El estándar [2] describe un algoritmo de compresión que se aplica a planos de datos independientes. Estos planos pueden ser píxeles RGB o RGBA originados en una cámara, píxeles YCbCr de una fuente de video centrada en TV convencional o algún otro plano de datos. Puede haber hasta 255 planos de datos independientes, y cada plano puede tener una cuadrícula de valores de datos de dimensiones de hasta 65535 x 65535. [18] El estándar SMPTE ST 2117-1 se centra en la compresión de planos de valores de datos, típicamente píxeles. Para comprimir y descomprimir los datos en cada plano, VC-6 utiliza representaciones jerárquicas de una pequeña estructura similar a un árbol que lleva metadatos utilizados para predecir otros árboles. Hay 3 estructuras fundamentales repetidas en cada plano. [2]

árbol S

La estructura de compresión principal en VC-6 es el árbol s. Es similar a la estructura de árbol cuádruple común en otros esquemas. Un árbol s está compuesto por nodos dispuestos en una estructura de árbol, donde cada nodo se vincula a 4 nodos en la siguiente capa. El número total de capas por encima del nodo raíz se conoce como la altura del árbol s . La compresión se logra en un árbol s mediante el uso de metadatos para indicar si los niveles se pueden predecir con el transporte selectivo de datos de mejora en el flujo de bits. Cuantos más datos se puedan predecir, menos información se enviará y mejor será la relación de compresión . [6] [2]

Cuadro

El estándar [2] define una tabla como el nodo raíz, o la capa más alta de un árbol s , que contiene nodos para otro árbol s. Al igual que los árboles s genéricos a partir de los cuales se construyen, las tablas se organizan en capas con metadatos en los nodos que indican si se predicen o transmiten capas superiores en el flujo de bits. [6]

Escalón

Las estructuras jerárquicas de s-tree y tableau en el estándar [2] se utilizan para transportar mejoras (llamadas resid-vals) y otros metadatos para reducir la cantidad de datos sin procesar que deben transportarse en la carga útil del flujo de bits. La herramienta jerárquica final es una capacidad para organizar los tableaux, de modo que los datos de cada plano (es decir, los píxeles) se puedan descuantificar en diferentes resoluciones y usarse como predictores para resoluciones más altas. Cada una de estas resoluciones está definida por el estándar [2] como un escalón. Cada escalón dentro de un plano se identifica por un índice , donde un índice más negativo indica una resolución baja y un índice más grande y más positivo indica una resolución más alta.

Descripción general de Bitstream

VC-6 es un ejemplo de codificación intra-cuadro , donde cada imagen se codifica sin hacer referencia a otras imágenes. También es intra-plano, donde no se utiliza información de un plano para predecir otro plano. Como resultado, el flujo de bits VC-6 contiene toda la información de todos los planos de una sola imagen. [2] Una secuencia de imágenes se crea concatenando los flujos de bits de varias imágenes o empaquetándolos en un contenedor como MXF , Quicktime o Matroska .

El flujo de bits VC-6 se define en el estándar [2] mediante pseudocódigo, y se ha demostrado un decodificador de referencia basado en esa definición. El encabezado primario es la única estructura fija definida por el estándar [2] . El encabezado secundario contiene información de marcadores y tamaño en función de los valores del encabezado primario. El encabezado terciario se calcula por completo y luego la estructura de carga útil se deriva de los parámetros calculados durante la decodificación del encabezado [2].

Descripción general de la decodificación

La norma [2] define un proceso denominado reconstrucción de planos para decodificar imágenes a partir de un flujo de bits. El proceso comienza con el escalón que tiene el índice más bajo. No se utilizan predicciones para este escalón. En primer lugar, se utilizan las reglas del flujo de bits para reconstruir los residuos. A continuación, se realizan procesos de desparsificación y descodificación de entropía para llenar la cuadrícula con valores de datos en cada coordenada. A continuación, estos valores se descuantifican para crear valores de rango completo que se pueden utilizar como predicciones para el escalón con el siguiente índice más alto. Cada escalón utiliza el sobremuestreador especificado en el encabezado para crear un plano predicho a partir del escalón inferior que se añade a la cuadrícula de residuos del escalón actual que se puede sobremuestrear como predicción para el siguiente escalón. [19]

El escalón final de resolución completa, definido por el estándar, está en el índice 0, y sus resultados se muestran, en lugar de usarse para otro escalón. [2]

Opciones de sobremuestreador

Opciones básicas

El estándar [2] define una serie de muestreadores ascendentes básicos [20] para crear predicciones de mayor resolución a partir de escalones de menor resolución. Hay dos muestreadores ascendentes lineales, bicúbicos y nítidos, y un muestreador ascendente de vecino más cercano.

Muestreador ascendente de red neuronal convolucional

Se definen seis muestreadores ascendentes no lineales diferentes [2] mediante un conjunto de procesos y coeficientes que se proporcionan en formato JSON . [20] Estos coeficientes se generaron utilizando técnicas de redes neuronales convolucionales [21] .

Referencias

  1. ^ "Resultados de búsqueda de IEEE Xplore". IEEE . Consultado el 17 de septiembre de 2020 .
  2. ^ abcdefghijklmnopqr «ST 2117-1:2020 - Estándar SMPTE - Formato de imagen multiplanar VC-6 — Parte 1. Flujo de bits elemental». St 2117-1:2020 : 1–156. Julio de 2020. doi :10.5594/SMPTE.ST2117-1.2020. ISBN 978-1-68303-219-9Archivado del original el 28 de octubre de 2020.
  3. ^ "ST 2042-1:2012 - Estándar SMPTE - Compresión de vídeo VC-2". St 2042-1:2012 : 1–137. Agosto de 2012. doi :10.5594/SMPTE.ST2042-1.2012. ISBN 978-1-61482-890-7Archivado desde el original el 13 de junio de 2018.
  4. ^ "ST 2019-1:2016 - Estándar SMPTE - Formato de flujo de datos y compresión de imágenes VC-3". St 2019-1:2016 : 1–108. Junio ​​de 2016. doi :10.5594/SMPTE.ST2019-1.2016. ISBN 978-1-68303-020-1Archivado desde el original el 6 de marzo de 2017.
  5. ^ "ST 2073-1:2014 - Estándar SMPTE - VC-5 Video Essence - Parte 1: flujo de bits elemental". St 2073-1:2014 : 1–50. Marzo de 2014. doi :10.5594/SMPTE.ST2073-1.2014. ISBN 978-1-61482-797-9.[ enlace muerto ]
  6. ^ abc "SMPTE ratifica el códec de vídeo VC-6 con tecnología de inteligencia artificial de V-Nova". Digital Media World . 7 de octubre de 2020.
  7. ^ Hung, Yubin; Rosenfeld, Azriel (1 de agosto de 1989). "Procesamiento paralelo de árboles cuaternarios lineales en una computadora conectada en malla". Journal of Parallel and Distributed Computing . 7 (1): 1–27. doi :10.1016/0743-7315(89)90049-X. ISSN  0743-7315.
  8. ^ Samet, Hanan (1988), "Una descripción general de los árboles cuaternarios, los árboles octárboles y las estructuras de datos jerárquicas relacionadas", Fundamentos teóricos de gráficos por computadora y CAD , Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 51–68, doi :10.1007/978-3-642-83539-1_2, ISBN 978-3-642-83541-4, consultado el 9 de septiembre de 2020
  9. ^ S., VG (5 de octubre de 2020). "SMPTE publica el nuevo estándar de códec de producción de video VC-6". Sports Video Group .
  10. ^ ab "Reseña: V-Nova Perseus: ¿su compresión está a la altura de las expectativas?". Streaming Media Magazine . 17 de junio de 2016. Consultado el 4 de septiembre de 2020 .
  11. ^ "Cronología histórica de los estándares y formatos de codificación de vídeo". Vcodex . Consultado el 30 de julio de 2021 .
  12. ^ "Sky Italia elige a V-Nova para ampliar su alcance IPTV". Digital TV Europe .
  13. ^ "La india FastFilmz elige a V-Nova para ofrecer OTT a teléfonos 2G". Digital TV Europe . 7 de abril de 2016 . Consultado el 9 de septiembre de 2020 .
  14. ^ "SHAREit adquiere Fastfilmz para aumentar el contenido de video y los usuarios regionales". Inc42 Media . 8 de mayo de 2018 . Consultado el 17 de septiembre de 2020 .
  15. ^ "Códec de vídeo de mejora de baja complejidad". LCEVC: un nuevo enfoque para la compresión de vídeo .
  16. ^ "V-Nova anuncia MPEG-5 Parte 2 LCEVC". TVB Europa .
  17. ^ "La política de Perseo se filtra en la NAB tras la revelación de MPEG-5". Rethnk Research . 11 de abril de 2019.
  18. ^ "Descripción general del VC-6". mrmxf.com .
  19. ^ ST 2117-1:2020 - Estándar SMPTE - Formato de imagen multiplanar VC-6 — Parte 1. Flujo de bits elemental. Julio de 2020. págs. 1–156. doi :10.5594/SMPTE.ST2117-1.2020. ISBN 978-1-68303-219-9Archivado del original el 28 de octubre de 2020. {{cite book}}: |journal=ignorado ( ayuda )
  20. ^ Elemento multimedia del muestreador ascendente ab ST 2117-1. 21 de julio de 2020. págs. 1–156. doi :10.5594/SMPTE.ST2117-1.2020. ISBN 978-1-68303-219-9Archivado del original el 15 de junio de 2021. {{cite book}}: |journal=ignorado ( ayuda )
  21. ^ Arabshahi, P. (mayo de 1996). "Fundamentos de las redes neuronales artificiales [Reseñas de libros]". IEEE Transactions on Neural Networks . 7 (3): 793. doi :10.1109/tnn.1996.501738. ISSN  1045-9227. S2CID  6576607.