stringtranslate.com

H.262/MPEG-2 Parte 2

H.262 [2] o MPEG-2 Parte 2 (formalmente conocido como Recomendación ITU-T H.262 e ISO/IEC 13818-2 , [3] también conocido como Vídeo MPEG-2 ) es un formato de codificación de vídeo estandarizado y conjunto mantenido por el Grupo de Expertos en Codificación de Vídeo (VCEG) del Grupo de Estudio 16 del UIT-T y el Grupo de Expertos en Imágenes en Movimiento ISO / IEC (MPEG), y desarrollado con la participación de muchas empresas. Es la segunda parte del estándar ISO/IEC MPEG-2 . Los documentos de la Recomendación UIT-T H.262 y la ISO/IEC 13818-2 son idénticos.

El estándar está disponible mediante pago en ITU-T [2] e ISO. MPEG-2 Video es muy similar a MPEG-1 , pero también brinda soporte para video entrelazado (una técnica de codificación utilizada en sistemas de televisión analógicos NTSC, PAL y SECAM). El vídeo MPEG-2 no está optimizado para velocidades de bits bajas (p. ej., menos de 1 Mbit/s), pero supera en cierta medida al MPEG-1 a velocidades de bits más altas (p. ej., 3 Mbit/s y superiores), aunque no por un gran margen. a menos que el vídeo esté entrelazado. Todos los decodificadores de vídeo MPEG-2 que cumplen con los estándares también son totalmente capaces de reproducir secuencias de vídeo MPEG-1. [4]

Historia

El proceso de aprobación ISO/IEC finalizó en noviembre de 1994. [5] La primera edición fue aprobada en julio de 1995 [6] y publicada por el UIT-T [2] e ISO/IEC en 1996. [7] Didier LeGall de Bellcore presidió el desarrollo del estándar [8] y Sakae Okubo de NTT fue el coordinador del UIT-T y presidió los acuerdos sobre sus requisitos. [9]

La tecnología se desarrolló con contribuciones de varias empresas. Hyundai Electronics (ahora SK Hynix ) desarrolló el primer decodificador MPEG-2 SAVI (Sistema/Audio/Video) en 1995. [10]

La mayoría de las patentes que posteriormente se afirmó en un consorcio de patentes como esenciales para la implementación del estándar procedían de tres empresas: Sony (311 patentes), Thomson (198 patentes) y Mitsubishi Electric (119 patentes). [11]

En 1996, se amplió mediante dos enmiendas para incluir el registro de identificadores de derechos de autor y el perfil 4:2:2. [2] [12] El UIT-T publicó estas enmiendas en 1996 y la ISO en 1997. [7]

También hay otras enmiendas publicadas posteriormente por el UIT-T y la ISO/IEC. [2] [13] La edición más reciente de la norma se publicó en 2013 e incorpora todas las modificaciones anteriores. [3]

Ediciones

Codificación de vídeo

Muestreo de imágenes

Una cámara HDTV con muestreo de 8 bits genera una secuencia de vídeo sin procesar de 25 × 1920 × 1080 × 3 = 155.520.000 bytes por segundo para vídeo de 25 fotogramas por segundo (utilizando el formato de muestreo 4:4:4 ). Este flujo de datos debe comprimirse para que la televisión digital encaje en el ancho de banda de los canales de televisión disponibles y para que las películas quepan en DVD. La compresión de vídeo es práctica porque los datos de las imágenes suelen ser redundantes en espacio y tiempo. Por ejemplo, el cielo puede ser azul en la parte superior de una imagen y ese cielo azul puede persistir fotograma tras fotograma. Además, debido a la forma en que funciona el ojo, es posible eliminar o aproximar algunos datos de las imágenes de vídeo con poca o ninguna degradación perceptible en la calidad de la imagen.

Un truco común (y antiguo) para reducir la cantidad de datos es separar cada "cuadro" completo de vídeo en dos "campos" durante la transmisión/codificación: el "campo superior", que son las líneas horizontales impares, y el "campo superior", que son las líneas horizontales impares. campo inferior", que son las líneas pares. Tras la recepción/decodificación, los dos campos se muestran alternativamente con las líneas de un campo intercaladas entre las líneas del campo anterior; este formato se llama vídeo entrelazado . La velocidad de campo típica es 50 (Europa/PAL) o 59,94 (EE.UU./NTSC) campos por segundo, lo que corresponde a 25 (Europa/PAL) o 29,97 (Norteamérica/NTSC) fotogramas completos por segundo. Si el vídeo no está entrelazado, se denomina vídeo de escaneo progresivo y cada imagen es un fotograma completo. MPEG-2 admite ambas opciones.

La televisión digital requiere que estas imágenes se digitalicen para que puedan ser procesadas por hardware de computadora. Cada elemento de la imagen (un píxel ) se representa mediante un número de luma y dos números de croma . Estos describen el brillo y el color del píxel (ver YCbCr ). Por tanto, cada imagen digitalizada está representada inicialmente por tres conjuntos rectangulares de números.

Otra práctica común para reducir la cantidad de datos a procesar es submuestrear los dos planos de croma (después del filtrado de paso bajo para evitar el aliasing ). Esto funciona porque el sistema visual humano resuelve mejor los detalles de brillo que los detalles de tono y saturación de colores. El término 4:2:2 se utiliza para vídeo con el croma submuestreado en una proporción de 2:1 horizontalmente, y 4:2:0 se utiliza para vídeo con el croma submuestreado en 2:1 tanto vertical como horizontalmente. El vídeo que tiene luma y croma a la misma resolución se llama 4:4:4 . El documento de vídeo MPEG-2 considera los tres tipos de muestreo, aunque 4:2:0 es, con mucho, el más común para vídeo de consumo, y no hay "perfiles" definidos de MPEG-2 para vídeo 4:4:4 (ver más abajo). para mayor discusión sobre perfiles).

Si bien la discusión a continuación en esta sección describe generalmente la compresión de video MPEG-2, hay muchos detalles que no se tratan, incluidos detalles relacionados con campos, formatos de crominancia, respuestas a cambios de escena, códigos especiales que etiquetan las partes del flujo de bits y otras partes. de información. Aparte de las funciones para manejar campos para codificación entrelazada, el vídeo MPEG-2 es muy similar al vídeo MPEG-1 (e incluso bastante similar al estándar anterior H.261 ), por lo que la descripción completa a continuación se aplica igualmente bien a MPEG-1.

Marcos I, marcos P y marcos B

MPEG-2 incluye tres tipos básicos de cuadros codificados: cuadros intracodificados ( cuadros I ), cuadros codificados predictivamente ( cuadros P ) y cuadros codificados predictivos bidireccionalmente ( cuadros B ).

Un I-frame es una versión comprimida por separado de un único fotograma sin comprimir (sin formato). La codificación de un I-frame aprovecha la redundancia espacial y la incapacidad del ojo para detectar ciertos cambios en la imagen. A diferencia de los fotogramas P y B, los fotogramas I no dependen de los datos de los fotogramas anteriores o siguientes, por lo que su codificación es muy similar a cómo se codificaría una fotografía fija (más o menos similar a la codificación de imágenes JPEG ). Brevemente, el marco sin formato se divide en bloques de 8 x 8 píxeles. Los datos de cada bloque se transforman mediante la transformada de coseno discreto (DCT). El resultado es una matriz de coeficientes de 8 × 8 que tienen valores de números reales . La transformada convierte variaciones espaciales en variaciones de frecuencia, pero no cambia la información del bloque; Si la transformada se calcula con perfecta precisión, el bloque original se puede recrear exactamente aplicando la transformada inversa del coseno (también con perfecta precisión). La conversión de enteros de 8 bits a coeficientes de transformación de valor real en realidad amplía la cantidad de datos utilizados en esta etapa del procesamiento, pero la ventaja de la transformación es que los datos de la imagen se pueden aproximar luego cuantificando los coeficientes. Muchos de los coeficientes de transformación, normalmente los componentes de mayor frecuencia, serán cero después de la cuantificación, que es básicamente una operación de redondeo. La desventaja de este paso es la pérdida de algunas distinciones sutiles de brillo y color. La cuantificación puede ser gruesa o fina, según lo seleccione el codificador. Si la cuantización no es demasiado burda y se aplica la transformación inversa a la matriz después de cuantizarla, se obtiene una imagen que se parece mucho a la imagen original pero no es exactamente la misma. A continuación, la propia matriz de coeficientes cuantificados se comprime. Normalmente, una esquina de la matriz de coeficientes de 8 × 8 contiene solo ceros después de aplicar la cuantificación. Al comenzar en la esquina opuesta de la matriz, luego zigzaguear a través de la matriz para combinar los coeficientes en una cadena, luego sustituir códigos de longitud de ejecución por ceros consecutivos en esa cadena y luego aplicar la codificación de Huffman a ese resultado, se reduce la matriz a una menor cantidad de datos. Son estos datos codificados en entropía los que se transmiten o se graban en DVD. En el receptor o en el reproductor, todo el proceso se invierte, lo que permite al receptor reconstruir, con gran aproximación, el fotograma original.

El procesamiento de fotogramas B es similar al de fotogramas P, excepto que los fotogramas B utilizan la imagen de un cuadro de referencia posterior así como la imagen de un cuadro de referencia anterior. Como resultado, los marcos B suelen proporcionar más compresión que los marcos P. Los fotogramas B nunca son fotogramas de referencia en vídeo MPEG-2.

Por lo general, aproximadamente cada 15 cuadros se convierte en un cuadro I. Los fotogramas P y B pueden seguir un fotograma I como este, IBBPBBPBBPBB(I), para formar un grupo de imágenes (GOP) ; sin embargo, el estándar es flexible al respecto. El codificador selecciona qué imágenes se codifican como fotogramas I, P y B.

Macrobloques

Los fotogramas P proporcionan más compresión que los fotogramas I porque aprovechan los datos de un fotograma I anterior o fotograma P (un fotograma de referencia ) . Para generar un cuadro P, se reconstruye el cuadro de referencia anterior, tal como se haría en un receptor de TV o en un reproductor de DVD. El fotograma que se comprime se divide en macrobloques de 16 x 16 píxeles . Luego, para cada uno de esos macrobloques, se busca en el marco de referencia reconstruido para encontrar un área de 16 por 16 que coincida estrechamente con el contenido del macrobloque que se está comprimiendo. El desplazamiento se codifica como un "vector de movimiento". Con frecuencia, el desplazamiento es cero, pero si algo en la imagen se mueve, el desplazamiento podría ser algo así como 23 píxeles hacia la derecha y 4 píxeles y medio hacia arriba. En MPEG-1 y MPEG-2, los valores del vector de movimiento pueden representar desplazamientos de números enteros o desplazamientos de medio entero. La combinación entre las dos regiones a menudo no será perfecta. Para corregir esto, el codificador toma la diferencia de todos los píxeles correspondientes de las dos regiones y, a partir de esa diferencia de macrobloque, calcula la DCT y las cadenas de valores de coeficientes para las cuatro áreas de 8×8 en el macrobloque de 16×16 como se describió anteriormente. Este "residual" se agrega al vector de movimiento y el resultado se envía al receptor o se almacena en el DVD para cada macrobloque que se comprime. A veces no se encuentra ninguna coincidencia adecuada. Luego, el macrobloque se trata como un macrobloque de cuadro I.

Perfiles y niveles de vídeo.

El vídeo MPEG-2 admite una amplia gama de aplicaciones, desde dispositivos móviles hasta edición HD de alta calidad. Para muchas aplicaciones, no es realista y es demasiado costoso admitir todo el estándar. Para permitir que dichas aplicaciones admitan solo subconjuntos del mismo, el estándar define perfiles y niveles.

Un perfil define conjuntos de características como imágenes B, vídeo 3D, formato croma, etc. El nivel limita la memoria y la potencia de procesamiento necesarias, definiendo velocidades de bits máximas, tamaños de fotogramas y velocidades de fotogramas.

Luego, una aplicación MPEG especifica las capacidades en términos de perfil y nivel. Por ejemplo, un reproductor de DVD puede decir que admite hasta el perfil principal y el nivel principal (a menudo escrito como MP@ML). Significa que el reproductor puede reproducir cualquier secuencia MPEG codificada como MP@ML o menos.

Las tablas a continuación resumen las limitaciones de cada perfil y nivel, aunque hay restricciones que no se enumeran aquí. [2] : Anexo E  Tenga en cuenta que no todas las combinaciones de perfiles y niveles están permitidas, y los modos escalables modifican las restricciones de nivel.

  1. ^ abc La escalabilidad SNR envía las diferencias del dominio de transformación a un nivel de cuantificación más bajo de cada bloque, lo que aumenta la calidad y la tasa de bits cuando se combinan ambas transmisiones. Se puede recrear una transmisión principal sin pérdidas.
  2. ^ ab La escalabilidad espacial codifica la diferencia entre las transmisiones HD y SD mejoradas, que se combina con la SD para recrear la transmisión HD. Una transmisión principal no se puede recrear sin pérdidas.
  3. ^ La escalabilidad temporal inserta fotogramas adicionales entre cada fotograma base, para aumentar la velocidad de fotogramas o agregar un punto de vista 3D. Este es el único perfil MPEG-2 que permite referencias de fotogramas adaptables, una característica destacada de H.264/AVC . Una transmisión principal se puede recrear sin pérdidas solo si no se utilizan referencias extendidas.

A continuación se presentan algunas combinaciones comunes de perfil/nivel MPEG-2, con límites máximos particulares indicados:

Aplicaciones

Algunas aplicaciones se enumeran a continuación.

Titulares de patentes

Las siguientes organizaciones han poseído patentes para la tecnología de vídeo MPEG-2, según se enumeran en MPEG LA . Todas estas patentes ya han expirado en los EE. UU. y en la mayoría de los demás territorios. [1]

Referencias

  1. ^ ab "La expiración de la patente MPEG-2 abre la puerta al uso libre de regalías". República Tecnológica . 15 de febrero de 2018 . Consultado el 13 de diciembre de 2021 .
  2. ^ abcdefg "H.262: Tecnología de la información - Codificación genérica de imágenes en movimiento e información de audio asociada: vídeo". Sitio web del UIT-T . Unión Internacional de Telecomunicaciones – Sector de Normalización de las Telecomunicaciones ( UIT-T ). Febrero de 2000 . Consultado el 13 de agosto de 2009 .
  3. ^ abcISO . "ISO/IEC 13818-2:2013 - Tecnología de la información - Codificación genérica de imágenes en movimiento e información de audio asociada: vídeo". YO ASI . Consultado el 24 de julio de 2014 .
  4. ^ El grupo de expertos en imágenes en movimiento. "Vídeo MPEG-2" . Consultado el 15 de junio de 2019 , a través de mpeg.chiariglione.org.
  5. ^ PN Tudor (diciembre de 2005). "Compresión de vídeo MPEG-2" . Consultado el 1 de noviembre de 2009 .
  6. ^ H.262 (07/95) Tecnología de la información: codificación genérica de imágenes en movimiento e información de audio asociada: vídeo, UIT , consultado el 3 de noviembre de 2009
  7. ^ abcISO . "ISO/IEC 13818-2:1996 - Tecnología de la información - Codificación genérica de imágenes en movimiento e información de audio asociada: vídeo". YO ASI . Consultado el 24 de julio de 2014 .
  8. ^ "Didier LeGall, vicepresidente ejecutivo". Ambarella Inc. Consultado el 2 de junio de 2017 .
  9. ^ "Sakae Okubo". UIT . Consultado el 27 de enero de 2017 .
  10. ^ "Historia: década de 1990". SK Hynix . Archivado desde el original el 5 de febrero de 2021 . Consultado el 6 de julio de 2019 .
  11. ^ "Lista de patentes MPEG-2" (PDF) . MPEG LA . Consultado el 7 de julio de 2019 .
  12. ^ Leonardo Chiariglione - Coordinador (octubre de 2000). "Breve descripción de MPEG-2" . Consultado el 1 de noviembre de 2009 .
  13. ^ ab MPEG. "Estándares MPEG". chiariglione.org . Consultado el 24 de julio de 2014 .
  14. ^ ISO. "ISO/IEC 13818-2:2000/Amd 3: nuevo nivel para 1080@50p/60p" . Consultado el 24 de julio de 2014 .
  15. ^ ISO. "ISO/IEC 13818-2:2000 - Tecnología de la información - Codificación genérica de imágenes en movimiento e información de audio asociada: vídeo". YO ASI . Consultado el 24 de julio de 2014 .
  16. ^ "Lista de patentes MPEG-2" (PDF) . MPEG LA . Consultado el 7 de julio de 2019 .

enlaces externos