stringtranslate.com

H.262/MPEG-2 Parte 2

H.262 [2] o MPEG-2 Parte 2 (formalmente conocido como Recomendación UIT-T H.262 e ISO/IEC 13818-2 , [3] también conocido como Vídeo MPEG-2 ) es un formato de codificación de vídeo estandarizado y mantenido conjuntamente por el Grupo de Estudio 16 de Expertos en Codificación de Vídeo (VCEG) de la UIT-T y el Grupo de Expertos en Imágenes en Movimiento (MPEG) de ISO / IEC , y desarrollado con la participación de muchas empresas. Es la segunda parte del estándar ISO/IEC MPEG-2 . Los documentos de la Recomendación UIT-T H.262 e ISO/IEC 13818-2 son idénticos.

El estándar está disponible a cambio de una tarifa en la ITU-T [2] y la ISO. El vídeo MPEG-2 es muy similar al MPEG-1 , pero también proporciona compatibilidad con vídeo entrelazado (una técnica de codificación utilizada en los sistemas de televisión analógicos NTSC, PAL y SECAM). El vídeo MPEG-2 no está optimizado para velocidades de bits bajas (por ejemplo, menos de 1 Mbit/s), pero supera un poco al MPEG-1 a velocidades de bits más altas (por ejemplo, 3 Mbit/s y superiores), aunque no por un margen amplio a menos que el vídeo esté entrelazado. Todos los decodificadores de vídeo MPEG-2 que cumplen con los estándares también son totalmente capaces de reproducir secuencias de vídeo MPEG-1. [4]

Historia

El proceso de aprobación de la ISO/IEC se completó en noviembre de 1994. [5] La primera edición fue aprobada en julio de 1995 [6] y publicada por la UIT-T [2] e ISO/IEC en 1996. [7] Didier LeGall de Bellcore presidió el desarrollo de la norma [8] y Sakae Okubo de NTT fue el coordinador de la UIT-T y presidió los acuerdos sobre sus requisitos. [9]

La tecnología se desarrolló con la colaboración de varias empresas. Hyundai Electronics (ahora SK Hynix ) desarrolló el primer decodificador MPEG-2 SAVI (sistema/audio/vídeo) en 1995. [10]

La mayoría de las patentes que luego se afirmaron en un fondo de patentes que eran esenciales para implementar el estándar provenían de tres empresas: Sony (311 patentes), Thomson (198 patentes) y Mitsubishi Electric (119 patentes). [11]

En 1996, se amplió con dos enmiendas para incluir el registro de identificadores de derechos de autor y el perfil 4:2:2. [2] [12] La UIT-T publicó estas enmiendas en 1996 y la ISO en 1997. [7]

También hay otras modificaciones publicadas posteriormente por la UIT-T y la ISO/IEC. [2] [13] La edición más reciente de la norma se publicó en 2013 e incorpora todas las modificaciones anteriores. [3]

Ediciones

Codificación de vídeo

Muestreo de imágenes

Una cámara HDTV con muestreo de 8 bits genera un flujo de vídeo sin procesar de 25 × 1920 × 1080 × 3 = 155.520.000 bytes por segundo para un vídeo de 25 fotogramas por segundo (utilizando el formato de muestreo 4:4:4 ). Este flujo de datos debe comprimirse para que la televisión digital se ajuste al ancho de banda de los canales de televisión disponibles y para que las películas quepan en los DVD. La compresión de vídeo es práctica porque los datos de las imágenes suelen ser redundantes en el espacio y el tiempo. Por ejemplo, el cielo puede ser azul en la parte superior de una imagen y ese cielo azul puede persistir fotograma tras fotograma. Además, debido a la forma en que funciona el ojo, es posible eliminar o aproximar algunos datos de las imágenes de vídeo con poca o ninguna degradación perceptible en la calidad de la imagen.

Un truco común (y antiguo) para reducir la cantidad de datos es separar cada "fotograma" completo de vídeo en dos "campos" al transmitirlo/codificarlo: el "campo superior", que son las líneas horizontales con número impar, y el "campo inferior", que son las líneas con número par. Al recibir/descodificar, los dos campos se muestran de forma alternada con las líneas de un campo intercaladas entre las líneas del campo anterior; este formato se denomina vídeo entrelazado . La velocidad de campo típica es de 50 (Europa/PAL) o 59,94 (EE. UU./NTSC) campos por segundo, lo que corresponde a 25 (Europa/PAL) o 29,97 (Norteamérica/NTSC) fotogramas completos por segundo. Si el vídeo no está entrelazado, se denomina vídeo de exploración progresiva y cada imagen es un fotograma completo. MPEG-2 admite ambas opciones.

La televisión digital requiere que estas imágenes se digitalicen para que puedan ser procesadas por el hardware de la computadora. Cada elemento de la imagen (un píxel ) se representa entonces mediante un número de luminancia y dos números de croma . Estos describen el brillo y el color del píxel (véase YCbCr ). Por lo tanto, cada imagen digitalizada se representa inicialmente mediante tres matrices rectangulares de números.

Otra práctica común para reducir la cantidad de datos a procesar es submuestrear los dos planos de croma (después de un filtrado de paso bajo para evitar el aliasing ). Esto funciona porque el sistema visual humano resuelve mejor los detalles de brillo que los detalles en el tono y la saturación de los colores. El término 4:2:2 se utiliza para el vídeo con el croma submuestreado en una proporción de 2:1 horizontalmente, y 4:2:0 se utiliza para el vídeo con el croma submuestreado en una proporción de 2:1 tanto vertical como horizontalmente. El vídeo que tiene luma y croma a la misma resolución se denomina 4:4:4 . El documento de vídeo MPEG-2 considera los tres tipos de muestreo, aunque 4:2:0 es por lejos el más común para el vídeo de consumo, y no hay "perfiles" definidos de MPEG-2 para el vídeo 4:4:4 (consulte a continuación para obtener más información sobre los perfiles).

Aunque la siguiente sección describe en general la compresión de video MPEG-2, hay muchos detalles que no se tratan, incluidos detalles relacionados con campos, formatos de crominancia, respuestas a cambios de escena, códigos especiales que etiquetan las partes del flujo de bits y otros datos. Aparte de las características para manejar campos para codificación entrelazada, el video MPEG-2 es muy similar al video MPEG-1 (e incluso bastante similar al estándar anterior H.261 ), por lo que toda la descripción a continuación se aplica igualmente bien a MPEG-1.

Fotogramas I, P y B

MPEG-2 incluye tres tipos básicos de cuadros codificados: cuadros intracodificados ( cuadros I ), cuadros codificados predictivamente ( cuadros P ) y cuadros codificados predictivamente bidireccionalmente ( cuadros B ).

Un fotograma I es una versión comprimida por separado de un único fotograma sin comprimir (sin procesar). La codificación de un fotograma I aprovecha la redundancia espacial y la incapacidad del ojo para detectar ciertos cambios en la imagen. A diferencia de los fotogramas P y B, los fotogramas I no dependen de los datos de los fotogramas anteriores o posteriores, por lo que su codificación es muy similar a la codificación de una fotografía fija (aproximadamente similar a la codificación de imágenes JPEG ). En pocas palabras, el fotograma sin procesar se divide en bloques de 8 píxeles por 8 píxeles. Los datos de cada bloque se transforman mediante la transformada discreta del coseno (DCT). El resultado es una matriz de 8×8 de coeficientes que tienen valores de números reales . La transformada convierte las variaciones espaciales en variaciones de frecuencia, pero no cambia la información del bloque; si la transformada se calcula con precisión perfecta, el bloque original se puede recrear exactamente aplicando la transformada inversa del coseno (también con precisión perfecta). La conversión de números enteros de 8 bits a coeficientes de transformación de valor real realmente expande la cantidad de datos utilizados en esta etapa del procesamiento, pero la ventaja de la transformación es que los datos de la imagen pueden entonces aproximarse cuantificando los coeficientes. Muchos de los coeficientes de transformación, normalmente los componentes de frecuencia más alta, serán cero después de la cuantificación, que es básicamente una operación de redondeo. La penalización de este paso es la pérdida de algunas distinciones sutiles en brillo y color. La cuantificación puede ser gruesa o fina, según lo seleccione el codificador. Si la cuantificación no es demasiado gruesa y se aplica la transformación inversa a la matriz después de cuantificarla, se obtiene una imagen que se ve muy similar a la imagen original, pero no es exactamente la misma. A continuación, la matriz de coeficientes cuantificados se comprime. Normalmente, una esquina de la matriz de coeficientes de 8 × 8 contiene solo ceros después de aplicar la cuantificación. Si se comienza por el extremo opuesto de la matriz, se avanza en zigzag por ella para combinar los coeficientes en una cadena, se sustituyen los ceros consecutivos por códigos de longitud de serie y se aplica la codificación de Huffman a ese resultado, se reduce la matriz a una cantidad menor de datos. Son estos datos codificados por entropía los que se transmiten o se colocan en los DVD. En el receptor o el reproductor, todo el proceso se invierte, lo que permite al receptor reconstruir, con una aproximación cercana, el cuadro original.

El procesamiento de fotogramas B es similar al de fotogramas P, salvo que los fotogramas B utilizan la imagen de un fotograma de referencia posterior, así como la imagen de un fotograma de referencia anterior. Como resultado, los fotogramas B suelen proporcionar más compresión que los fotogramas P. Los fotogramas B nunca son fotogramas de referencia en el vídeo MPEG-2.

Por lo general, cada decimoquinto fotograma aproximadamente se convierte en un fotograma I. Los fotogramas P y B pueden seguir a un fotograma I como este, IBBPBBPBBPBB(I), para formar un grupo de imágenes (GOP) ; sin embargo, el estándar es flexible al respecto. El codificador selecciona qué imágenes se codifican como fotogramas I, P y B.

Macrobloques

Los fotogramas P proporcionan más compresión que los fotogramas I porque aprovechan los datos de un fotograma I o P anterior, un fotograma de referencia . Para generar un fotograma P, se reconstruye el fotograma de referencia anterior, tal como se haría en un receptor de TV o un reproductor de DVD. El fotograma que se está comprimiendo se divide en macrobloques de 16 píxeles por 16 píxeles . Luego, para cada uno de esos macrobloques, se busca en el fotograma de referencia reconstruido para encontrar un área de 16 por 16 que coincida estrechamente con el contenido del macrobloque que se está comprimiendo. El desplazamiento se codifica como un "vector de movimiento". Con frecuencia, el desplazamiento es cero, pero si algo en la imagen se está moviendo, el desplazamiento puede ser algo así como 23 píxeles a la derecha y 4 píxeles y medio hacia arriba. En MPEG-1 y MPEG-2, los valores del vector de movimiento pueden representar desplazamientos enteros o desplazamientos de medio entero. La coincidencia entre las dos regiones a menudo no será perfecta. Para corregir esto, el codificador toma la diferencia de todos los píxeles correspondientes de las dos regiones y, sobre esa diferencia de macrobloque, calcula la DCT y las cadenas de valores de coeficientes para las cuatro áreas de 8×8 en el macrobloque de 16×16, como se describió anteriormente. Este "residuo" se agrega al vector de movimiento y el resultado se envía al receptor o se almacena en el DVD para cada macrobloque que se comprime. A veces no se encuentra una coincidencia adecuada. Entonces, el macrobloque se trata como un macrobloque de fotograma I.

Perfiles y niveles de vídeo

El vídeo MPEG-2 es compatible con una amplia gama de aplicaciones, desde dispositivos móviles hasta edición HD de alta calidad. Para muchas aplicaciones, es poco realista y demasiado costoso admitir todo el estándar. Para permitir que dichas aplicaciones admitan solo subconjuntos del mismo, el estándar define perfiles y niveles.

Un perfil define conjuntos de características como imágenes B, video 3D, formato cromático, etc. El nivel limita la memoria y la potencia de procesamiento necesarias, definiendo velocidades de bits máximas, tamaños de cuadros y frecuencias de cuadros.

Una aplicación MPEG especifica entonces las capacidades en términos de perfil y nivel. Por ejemplo, un reproductor de DVD puede indicar que admite hasta el perfil principal y el nivel principal (que suele escribirse como MP@ML). Esto significa que el reproductor puede reproducir cualquier flujo MPEG codificado como MP@ML o inferior.

Las tablas siguientes resumen las limitaciones de cada perfil y nivel, aunque existen restricciones que no se enumeran aquí. [2] : Anexo E  Tenga en cuenta que no todas las combinaciones de perfiles y niveles son permisibles, y los modos escalables modifican las restricciones de nivel.

  1. ^ abc La escalabilidad de la relación señal-ruido envía las diferencias del dominio de transformación a un nivel de cuantificación más bajo de cada bloque, lo que aumenta la calidad y la tasa de bits cuando se combinan ambos flujos. Es posible recrear un flujo principal sin pérdidas.
  2. ^ ab La escalabilidad espacial codifica la diferencia entre las transmisiones HD y SD mejoradas, que se combina con la SD para recrear la transmisión HD. Una transmisión principal no se puede recrear sin pérdida.
  3. ^ La escalabilidad temporal inserta fotogramas adicionales entre cada fotograma base para aumentar la velocidad de fotogramas o añadir un punto de vista en 3D. Este es el único perfil MPEG-2 que permite referencias de fotogramas adaptables, una característica destacada de H.264/AVC . Una transmisión principal se puede recrear sin pérdida solo si no se utilizan referencias extendidas.

A continuación se presentan algunas combinaciones comunes de perfil/nivel MPEG-2, con límites máximos particulares indicados:

Aplicaciones

A continuación se enumeran algunas aplicaciones.

Titulares de patentes

Las siguientes organizaciones han sido titulares de patentes para la tecnología de video MPEG-2, como se indica en MPEG LA . Todas estas patentes han expirado en los EE. UU. y en la mayoría de los demás territorios. [1]

Referencias

  1. ^ ab "La expiración de la patente de MPEG-2 abre la puerta al uso sin regalías". TechRepublic . 15 de febrero de 2018 . Consultado el 13 de diciembre de 2021 .
  2. ^ abcdefg «H.262: Tecnología de la información – Codificación genérica de imágenes en movimiento e información de audio asociada: Vídeo». Sitio web de la UIT-T . Unión Internacional de Telecomunicaciones – Sector de Normalización de las Telecomunicaciones ( UIT-T ). Febrero de 2000. Consultado el 13 de agosto de 2009 .
  3. ^ abc ISO. «ISO/IEC 13818-2:2013 – Tecnología de la información – Codificación genérica de imágenes en movimiento e información de audio asociada: Vídeo». ISO . Consultado el 24 de julio de 2014 .
  4. ^ The Moving Picture Experts Group. «MPEG-2 Video» . Consultado el 15 de junio de 2019 en mpeg.chiariglione.org.
  5. ^ PN Tudor (diciembre de 2005). «Compresión de vídeo MPEG-2» . Consultado el 1 de noviembre de 2009 .
  6. ^ H.262 (07/95) Tecnología de la información: codificación genérica de imágenes en movimiento e información de audio asociada: vídeo, UIT , consultado el 3 de noviembre de 2009
  7. ^ abc ISO. «ISO/IEC 13818-2:1996 – Tecnología de la información – Codificación genérica de imágenes en movimiento e información de audio asociada: Vídeo». ISO . Consultado el 24 de julio de 2014 .
  8. ^ "Didier LeGall, vicepresidente ejecutivo". Ambarella Inc. Consultado el 2 de junio de 2017 .
  9. ^ "Sakae Okubo". UIT . Consultado el 27 de enero de 2017 .
  10. ^ "Historia: década de 1990". SK Hynix . Archivado desde el original el 5 de febrero de 2021 . Consultado el 6 de julio de 2019 .
  11. ^ "Lista de patentes MPEG-2" (PDF) . MPEG LA . Consultado el 7 de julio de 2019 .
  12. ^ Leonardo Chiariglione – Coordinador (octubre de 2000). «Breve descripción de MPEG-2» . Consultado el 1 de noviembre de 2009 .
  13. ^ ab MPEG. «Estándares MPEG». chiariglione.org . Consultado el 24 de julio de 2014 .
  14. ^ ISO. «ISO/IEC 13818-2:2000/Amd 3 – Nuevo nivel para 1080 a 50p/60p» . Consultado el 24 de julio de 2014 .
  15. ^ ISO. «ISO/IEC 13818-2:2000 – Tecnología de la información – Codificación genérica de imágenes en movimiento e información de audio asociada: Vídeo». ISO . Consultado el 24 de julio de 2014 .
  16. ^ "Lista de patentes MPEG-2" (PDF) . MPEG LA . Consultado el 7 de julio de 2019 .

Enlaces externos