stringtranslate.com

MPEG-1

MPEG-1 es un estándar para la compresión con pérdida de vídeo y audio . Está diseñado para comprimir vídeo digital sin formato con calidad VHS y audio de CD hasta aproximadamente 1,5 Mbit/s (proporciones de compresión 26:1 y 6:1 respectivamente) [2] sin pérdida excesiva de calidad, lo que permite convertir vídeo CD y TV digital por cable / satélite. y transmisión de audio digital (DAB) práctica. [3] [4]

Hoy en día, MPEG-1 se ha convertido en el formato de audio/vídeo con pérdida más compatible del mundo y se utiliza en una gran cantidad de productos y tecnologías. Quizás la parte más conocida del estándar MPEG-1 sea la primera versión del formato de audio MP3 que introdujo.

El estándar MPEG-1 está publicado como ISO / IEC 11172 , titulado Tecnología de la información: codificación de imágenes en movimiento y audio asociado para medios de almacenamiento digital de hasta aproximadamente 1,5 Mbit/s .

La norma consta de las cinco partes siguientes : [5] [6] [7] [8] [9]

  1. Sistemas (almacenamiento y sincronización de video, audio y otros datos juntos)
  2. Vídeo (contenido de vídeo comprimido)
  3. Audio (contenido de audio comprimido)
  4. Pruebas de conformidad (probar la exactitud de las implementaciones del estándar)
  5. Software de referencia (software de ejemplo que muestra cómo codificar y decodificar según el estándar)

Historia

El predecesor de MPEG-1 para codificación de vídeo fue el estándar H.261 producido por el CCITT (ahora conocido como ITU-T ). La arquitectura básica establecida en H.261 fue la estructura de codificación de vídeo híbrida DCT con compensación de movimiento . [10] [11] Utiliza macrobloques de tamaño 16×16 con estimación de movimiento basada en bloques en el codificador y compensación de movimiento usando vectores de movimiento seleccionados por el codificador en el decodificador, con codificación de diferencia residual usando una transformada de coseno discreta (DCT) de tamaño 8×8, cuantificación escalar y códigos de longitud variable (como los códigos de Huffman ) para codificación de entropía . [12] H.261 fue el primer estándar práctico de codificación de vídeo y todos los elementos de diseño descritos también se utilizaron en MPEG-1. [13]

Siguiendo el modelo del exitoso enfoque colaborativo y las tecnologías de compresión desarrolladas por el Grupo Conjunto de Expertos en Fotografía y el Grupo de Expertos en Telefonía del CCITT (creadores del estándar de compresión de imágenes JPEG y el estándar H.261 para videoconferencias respectivamente), el Grupo de Expertos en Imágenes en Movimiento (MPEG) se creó en enero de 1988, por iniciativa de Hiroshi Yasuda ( Nippon Telegraph and Telephone ) y Leonardo Chiariglione ( CSELT ). [14] MPEG se formó para abordar la necesidad de formatos estándar de vídeo y audio, y para aprovechar H.261 para obtener una mejor calidad mediante el uso de métodos de codificación algo más complejos (por ejemplo, admitir una mayor precisión para los vectores de movimiento). [3] [15] [16]

El desarrollo del estándar MPEG-1 comenzó en mayo de 1988. Empresas e instituciones individuales presentaron para su evaluación catorce propuestas de códecs de vídeo y catorce de audio. Los códecs se probaron exhaustivamente en cuanto a complejidad computacional y calidad subjetiva (percibida por el ser humano), a velocidades de datos de 1,5 Mbit/s. Esta tasa de bits específica se eligió para la transmisión a través de líneas T-1 / E-1 y como tasa de datos aproximada de los CD de audio . [17] Los códecs que sobresalieron en esta prueba se utilizaron como base para el estándar y se perfeccionaron aún más, con características adicionales y otras mejoras que se incorporaron en el proceso. [18]

Después de 20 reuniones del grupo completo en varias ciudades del mundo y cuatro años y medio de desarrollo y pruebas, la norma final (para las partes 1 a 3) se aprobó a principios de noviembre de 1992 y se publicó unos meses después. [19] La fecha de finalización del estándar MPEG-1 varía mucho: en septiembre de 1990 se produjo un borrador de estándar en gran medida completo y, a partir de ese momento, sólo se introdujeron cambios menores. [3] El borrador de la norma estaba disponible públicamente para su compra. [20] La norma quedó terminada en la reunión del 6 de noviembre de 1992. [21] El Berkeley Plateau Multimedia Research Group desarrolló un decodificador MPEG-1 en noviembre de 1992. [22] En julio de 1990, antes de que se hubiera escrito el primer borrador del estándar MPEG-1, se comenzó a trabajar en un segundo estándar, MPEG- 1. 2 , [23] pretendía ampliar la tecnología MPEG-1 para proporcionar vídeo con calidad de transmisión completa (según CCIR 601 ) a altas velocidades de bits (3–15 Mbit/s) y soporte para vídeo entrelazado . [24] Debido en parte a la similitud entre los dos códecs, el estándar MPEG-2 incluye total compatibilidad con el vídeo MPEG-1, por lo que cualquier decodificador MPEG-2 puede reproducir vídeos MPEG-1. [25]

En particular, el estándar MPEG-1 define de manera muy estricta el flujo de bits y la función de decodificador, pero no define cómo se debe realizar la codificación MPEG-1, aunque se proporciona una implementación de referencia en ISO/IEC-11172-5. [2] Esto significa que la eficiencia de la codificación MPEG-1 puede variar drásticamente según el codificador utilizado y, en general, significa que los codificadores más nuevos funcionan significativamente mejor que sus predecesores. [26] Las primeras tres partes (Sistemas, Vídeo y Audio) de ISO/IEC 11172 se publicaron en agosto de 1993. [27]

Patentes

Debido a su antigüedad, MPEG-1 ya no está cubierto por ninguna patente esencial y, por lo tanto, puede utilizarse sin obtener una licencia ni pagar ninguna tarifa. [34] [35] [36] [37] [38] La base de datos de patentes ISO enumera una patente para ISO 11172, US 4.472.747, que expiró en 2003. [39] El borrador casi completo del estándar MPEG-1 se hizo público disponible como ISO CD 11172 [20] antes del 6 de diciembre de 1991. [1] Ni el artículo de Kuro5hin de julio de 2008 "Estado de patentes de MPEG-1, H.261 y MPEG-2", [40] ni un hilo de agosto de 2008 sobre el La lista de correo de gstreamer-devel [41] pudo enumerar una única patente vigente de MPEG-1 Video y MPEG-1 Audio Layer I/II. Una discusión de mayo de 2009 en la lista de correo de whatwg mencionó que la patente estadounidense 5.214.678 posiblemente cubría MPEG-1 Audio Layer II. [42] Esta patente, presentada en 1990 y publicada en 1993, ya ha caducado. [43]

Un decodificador y codificador MPEG-1 completo, con "audio Capa III", no se podía implementar sin regalías ya que había empresas que exigían pagos de patentes para las implementaciones de MPEG-1 Audio Capa III, como se analiza en el artículo sobre MP3 . Todas las patentes en el mundo relacionadas con MP3 expiraron el 30 de diciembre de 2017, lo que hace que este formato sea de uso totalmente gratuito. [44] El 23 de abril de 2017, Fraunhofer IIS dejó de cobrar por el programa de licencias de MP3 de Technicolor para ciertas patentes y software relacionados con MP3. [45]

Antiguos titulares de patentes

Las siguientes corporaciones presentaron declaraciones ante ISO diciendo que poseían patentes para el formato de vídeo MPEG-1 (ISO/IEC-11172-2), aunque todas esas patentes han expirado desde entonces. [46]

Aplicaciones

Parte 1: Sistemas

La parte 1 del estándar MPEG-1 cubre los sistemas y se define en ISO/IEC-11172-1.

Los sistemas MPEG-1 especifican el diseño lógico y los métodos utilizados para almacenar el audio, el vídeo y otros datos codificados en un flujo de bits estándar y para mantener la sincronización entre los diferentes contenidos. Este formato de archivo está diseñado específicamente para el almacenamiento en medios y la transmisión a través de canales de comunicación que se consideran relativamente confiables. El estándar solo define una protección limitada contra errores, y pequeños errores en el flujo de bits pueden causar defectos notables.

Más tarde, esta estructura se denominó secuencia de programa MPEG : "El diseño de los sistemas MPEG-1 es esencialmente idéntico a la estructura de secuencia de programa MPEG-2". [48] ​​Esta terminología es más popular y precisa (la diferencia de un flujo de transporte MPEG ) y se utilizará aquí.

Flujos elementales, paquetes y referencias de reloj.

Flujos de programa

Los flujos de programa (PS) se ocupan de combinar múltiples flujos elementales en paquetes (generalmente solo un PES de audio y video) en un solo flujo, asegurando la entrega simultánea y manteniendo la sincronización. La estructura PS se conoce como formato multiplex o contenedor .

Las marcas de tiempo de presentación (PTS) existen en PS para corregir la inevitable disparidad entre los valores SCR de audio y video (corrección de base de tiempo). Los valores PTS de 90 kHz en el encabezado PS le indican al decodificador qué valores SCR de vídeo coinciden con qué valores SCR de audio. [49] PTS determina cuándo mostrar una parte de un programa MPEG y también lo utiliza el decodificador para determinar cuándo se pueden descartar datos del búfer . [51] El decodificador retrasará el vídeo o el audio hasta que llegue el segmento correspondiente del otro y pueda decodificarse.

El manejo de PTS puede ser problemático. Los decodificadores deben aceptar múltiples flujos de programas que hayan sido concatenados (unidos secuencialmente). Esto hace que los valores de PTS en el medio del vídeo se restablezcan a cero, y luego comiencen a incrementarse nuevamente. Estas disparidades envolventes de PTS pueden causar problemas de sincronización que el decodificador debe manejar especialmente.

Además, se requieren marcas de tiempo de decodificación (DTS) debido a los fotogramas B. Con fotogramas B en el flujo de vídeo, los fotogramas adyacentes deben codificarse y decodificarse desordenados (fotogramas reordenados). DTS es bastante similar a PTS, pero en lugar de simplemente manejar fotogramas secuenciales, contiene las marcas de tiempo adecuadas para indicarle al decodificador cuándo decodificar y mostrar el siguiente fotograma B (tipos de fotogramas que se explican a continuación), delante de su ancla (P). - o I-) cuadro. Sin fotogramas B en el vídeo, los valores PTS y DTS son idénticos. [52]

Multiplexación

Para generar el PS, el multiplexor entrelazará los (dos o más) flujos elementales paquetizados. Esto se hace para que los paquetes de los flujos simultáneos puedan transferirse a través del mismo canal y se garantice que ambos lleguen al decodificador exactamente al mismo tiempo. Este es un caso de multiplexación por división de tiempo .

Determinar cuántos datos de cada flujo debe haber en cada segmento entrelazado (el tamaño del entrelazado) es complicado, pero es un requisito importante. Un entrelazado inadecuado dará lugar a desbordamientos o insuficiencia de datos del buffer, ya que el receptor obtiene más de un flujo del que puede almacenar (por ejemplo, audio), antes de obtener suficientes datos para decodificar el otro flujo simultáneo (por ejemplo, vídeo). El Verificador de almacenamiento en búfer de vídeo MPEG (VBV) ayuda a determinar si un PS multiplexado puede ser descodificado por un dispositivo con una velocidad de rendimiento de datos y un tamaño de búfer específicos. [53] Esto ofrece retroalimentación al multiplexor y al codificador, para que puedan cambiar el tamaño del multiplex o ajustar las velocidades de bits según sea necesario para el cumplimiento.

Parte 2: Vídeo

La parte 2 del estándar MPEG-1 cubre vídeo y se define en ISO/IEC-11172-2. El diseño estuvo fuertemente influenciado por H.261 .

MPEG-1 Video aprovecha los métodos de compresión perceptual para reducir significativamente la velocidad de datos requerida por una transmisión de video. Reduce o descarta por completo información en ciertas frecuencias y áreas de la imagen que el ojo humano tiene una capacidad limitada para percibir completamente. También aprovecha la redundancia temporal (a lo largo del tiempo) y espacial (a través de una imagen) común en el vídeo para lograr una mejor compresión de datos de lo que sería posible de otra manera. (Ver: Compresión de vídeo )

Espacio de color

Ejemplo de submuestreo 4:2:0. Los dos círculos centrales superpuestos representan píxeles croma azul y rojo croma (color), mientras que los 4 círculos exteriores representan la luma (brillo).

Antes de codificar el vídeo a MPEG-1, el espacio de color se transforma a Y′CbCr (Y′=Luma, Cb=Chroma Blue, Cr=Chroma Red). Luma (brillo, resolución) se almacena por separado del croma (color, tono, fase) e incluso se separa en componentes rojo y azul.

El croma también se submuestrea a 4:2:0 , lo que significa que se reduce a la mitad de la resolución vertical y a la mitad de la resolución horizontal, es decir, a sólo una cuarta parte del número de muestras utilizadas para el componente luma del vídeo. [2] Este uso de una resolución más alta para algunos componentes de color es similar en concepto al filtro de patrón Bayer que se usa comúnmente para el sensor de captura de imágenes en cámaras digitales en color. Debido a que el ojo humano es mucho más sensible a pequeños cambios de brillo (el componente Y) que de color (los componentes Cr y Cb), el submuestreo de croma es una forma muy eficaz de reducir la cantidad de datos de vídeo que deben comprimirse. Sin embargo, en vídeos con detalles finos (alta complejidad espacial ), esto puede manifestarse como artefactos de alias de croma . En comparación con otros artefactos de compresión digital , este problema rara vez parece ser una fuente de molestia. Debido al submuestreo, el vídeo Y′CbCr 4:2:0 normalmente se almacena usando dimensiones pares ( divisibles por 2 horizontal y verticalmente).

El color Y′CbCr a menudo se denomina informalmente YUV para simplificar la notación, aunque ese término se aplica más propiamente a un formato de color algo diferente. De manera similar, los términos luminancia y crominancia se utilizan a menudo en lugar de los términos (más precisos) luma y croma.

Resolución/tasa de bits

MPEG-1 admite resoluciones de hasta 4095 × 4095 (12 bits) y velocidades de bits de hasta 100 Mbit/s. [dieciséis]

Los vídeos MPEG-1 se ven con mayor frecuencia utilizando la resolución del formato de entrada de origen (SIF): 352×240, 352×288 o 320×240. Estas resoluciones relativamente bajas, combinadas con una tasa de bits inferior a 1,5 Mbit/s, constituyen lo que se conoce como flujo de bits de parámetros restringidos (CPB), posteriormente rebautizado como perfil de "nivel bajo" (LL) en MPEG-2. Estas son las especificaciones de vídeo mínimas que cualquier decodificador debería poder manejar para ser considerado compatible con MPEG-1. Este fue seleccionado para proporcionar un buen equilibrio entre calidad y rendimiento, permitiendo el uso de hardware razonablemente económico de la época. [3] [16]

Tipos de marco/imagen/bloque

MPEG-1 tiene varios tipos de cuadros/imágenes que sirven para diferentes propósitos. El más importante, aunque más sencillo, es el I-frame .

marcos I

"I-frame" es una abreviatura de "Intra-frame", así llamado porque se pueden decodificar independientemente de otros fotogramas. También pueden conocerse como imágenes I o fotogramas clave debido a su función algo similar a los fotogramas clave utilizados en la animación. Los fotogramas I se pueden considerar efectivamente idénticos a las imágenes JPEG de referencia . [dieciséis]

La búsqueda de alta velocidad a través de un vídeo MPEG-1 sólo es posible hasta el cuadro I más cercano. Al cortar un vídeo, no es posible iniciar la reproducción de un segmento de vídeo antes del primer fotograma I del segmento (al menos no sin una recodificación computacional intensiva). Por este motivo, los vídeos MPEG de sólo fotograma I se utilizan en aplicaciones de edición.

La compresión de solo fotograma I es muy rápida, pero produce tamaños de archivo muy grandes: un factor de 3 veces (o más) mayor que el video MPEG-1 normalmente codificado, dependiendo de cuán complejo temporalmente sea un video específico. [3] El vídeo MPEG-1 de sólo fotograma I es muy similar al vídeo MJPEG . Tanto es así que se puede realizar una conversión de un formato a otro a muy alta velocidad y teóricamente sin pérdidas (en realidad, hay errores de redondeo), siempre que se sigan un par de restricciones (espacio de color y matriz de cuantificación) en la creación del formato. flujo de bits. [54]

La longitud entre fotogramas I se conoce como tamaño del grupo de imágenes (GOP). MPEG-1 utiliza con mayor frecuencia un tamaño GOP de 15 a 18. es decir, 1 fotograma I por cada 14-17 fotogramas no I (alguna combinación de fotogramas P y B). Con codificadores más inteligentes, el tamaño del GOP se elige dinámicamente, hasta un límite máximo preseleccionado. [dieciséis]

Se imponen límites al número máximo de fotogramas entre fotogramas I debido a la complejidad de la decodificación, el tamaño del búfer del decodificador, el tiempo de recuperación después de errores de datos, la capacidad de búsqueda y la acumulación de errores IDCT en implementaciones de baja precisión más comunes en los decodificadores de hardware (Ver: IEEE -1180).

marcos P

"P-frame" es una abreviatura de "Predicted-frame". También se les puede llamar cuadros predichos hacia adelante o intercuadros (los cuadros B también son intercuadros).

Los fotogramas P existen para mejorar la compresión aprovechando la redundancia temporal (en el tiempo) en un vídeo. Los fotogramas P almacenan solo la diferencia en la imagen del fotograma (ya sea un fotograma I o un fotograma P) inmediatamente anterior (este marco de referencia también se denomina marco de anclaje ).

La diferencia entre un cuadro P y su cuadro de anclaje se calcula utilizando vectores de movimiento en cada macrobloque del cuadro (ver más abajo). Dichos datos de vector de movimiento se incrustarán en el cuadro P para que los utilice el decodificador.

Una trama P puede contener cualquier número de bloques intracodificados, además de cualquier bloque predicho hacia adelante. [55]

Si un vídeo cambia drásticamente de un fotograma al siguiente (como un corte ), es más eficaz codificarlo como un fotograma I.

marcos B

"B-frame" significa "marco bidireccional" o "marco bipredictivo". También pueden denominarse fotogramas predichos al revés o imágenes B. Los fotogramas B son bastante similares a los fotogramas P, excepto que pueden hacer predicciones utilizando tanto el fotograma anterior como el futuro (es decir, dos fotogramas de anclaje).

Por lo tanto, es necesario que el reproductor decodifique primero el siguiente fotograma de anclaje I o P secuencialmente después del fotograma B, antes de que el fotograma B pueda descodificarse y visualizarse. Esto significa que la decodificación de fotogramas B requiere búferes de datos más grandes y provoca un mayor retraso tanto en la decodificación como durante la codificación. Esto también requiere la función de decodificación de marcas de tiempo (DTS) en el flujo del contenedor/sistema (ver arriba). Como tales, los fotogramas B han sido objeto de mucha controversia durante mucho tiempo, a menudo se evitan en los vídeos y, en ocasiones, no son totalmente compatibles con los decodificadores de hardware.

No se predicen otros fotogramas a partir de un fotograma B. Debido a esto, se puede insertar un fotograma B con una tasa de bits muy baja, cuando sea necesario, para ayudar a controlar la tasa de bits. Si esto se hiciera con un fotograma P, se predecirían futuros fotogramas P a partir de él y reducirían la calidad de toda la secuencia. Sin embargo, de manera similar, el futuro marco P aún debe codificar todos los cambios entre él y el marco de anclaje I o P anterior. Los fotogramas B también pueden resultar beneficiosos en vídeos en los que el fondo detrás de un objeto se revela en varios fotogramas, o en transiciones que se desvanecen, como cambios de escena. [3] [16]

Una trama B puede contener cualquier número de bloques intracodificados y bloques predichos hacia adelante, además de bloques predichos hacia atrás o bidireccionales. [16] [55]

marcos en D

MPEG-1 tiene un tipo de fotograma único que no se encuentra en los estándares de vídeo posteriores. Los "cuadros D" o imágenes DC son imágenes codificadas de forma independiente (intracuadros) que se han codificado utilizando únicamente coeficientes de transformación DC (los coeficientes AC se eliminan al codificar cuadros D; consulte DCT a continuación) y, por lo tanto, son de muy baja calidad. Los marcos D nunca están referenciados por marcos I, P o B. Los fotogramas D solo se utilizan para vistas previas rápidas de vídeo, por ejemplo, cuando se busca un vídeo a alta velocidad. [3]

Con un equipo de decodificación de rendimiento moderadamente superior, se puede lograr una vista previa rápida decodificando fotogramas I en lugar de fotogramas D. Esto proporciona vistas previas de mayor calidad, ya que los fotogramas I contienen coeficientes AC y DC. Si el codificador puede asumir que la capacidad de decodificación rápida de fotogramas I está disponible en los decodificadores, puede ahorrar bits al no enviar fotogramas D (mejorando así la compresión del contenido de vídeo). Por esta razón, los fotogramas D rara vez se utilizan en la codificación de vídeo MPEG-1, y la función de fotograma D no se ha incluido en ningún estándar de codificación de vídeo posterior.

Macrobloques

MPEG-1 funciona con vídeo en una serie de bloques de 8×8 para cuantificación. Sin embargo, para reducir la velocidad de bits necesaria para los vectores de movimiento y debido a que el croma (color) se submuestrea en un factor de 4, cada par de bloques de croma (rojo y azul) corresponde a 4 bloques de luma diferentes. Este conjunto de 6 bloques, con una resolución de 16×16, se procesa en conjunto y se denomina macrobloque .

Un macrobloque es la unidad independiente más pequeña de vídeo (en color). Los vectores de movimiento (ver más abajo) operan únicamente a nivel de macrobloque.

Si la altura o el ancho del video no son múltiplos exactos de 16, aún se deben codificar y decodificar filas y columnas completas de macrobloques para completar la imagen (aunque los píxeles decodificados adicionales no se muestran).

Vectores de movimiento

Para disminuir la cantidad de redundancia temporal en un video, solo se actualizan los bloques que cambian (hasta el tamaño máximo de GOP). Esto se conoce como reposición condicional. Sin embargo, esto no es muy eficaz por sí solo. El movimiento de los objetos y/o de la cámara puede dar lugar a que sea necesario actualizar grandes porciones del fotograma, aunque solo haya cambiado la posición de los objetos previamente codificados. Mediante la estimación del movimiento, el codificador puede compensar este movimiento y eliminar una gran cantidad de información redundante.

El codificador compara el cuadro actual con partes adyacentes del video desde el cuadro de anclaje (cuadro I o P anterior) en un patrón de diamante, hasta un límite de radio predefinido (específico del codificador) desde el área del macrobloque actual. Si se encuentra una coincidencia, sólo es necesario codificar en el intercuadro (cuadro P o B) la dirección y la distancia (es decir, el vector del movimiento ) desde el área de vídeo anterior hasta el macrobloque actual. El proceso inverso a este proceso, realizado por el decodificador para reconstruir la imagen, se llama compensación de movimiento .

Sin embargo, un macrobloque previsto rara vez coincide perfectamente con la imagen actual. Las diferencias entre el área de coincidencia estimada y el fotograma/macrobloque real se denomina error de predicción. Cuanto mayor sea la cantidad de error de predicción, más datos deberán codificarse adicionalmente en el marco. Para una compresión de vídeo eficiente, es muy importante que el codificador sea capaz de realizar una estimación del movimiento de forma eficaz y precisa.

Los vectores de movimiento registran la distancia entre dos áreas en la pantalla en función del número de píxeles (también llamados pels). El vídeo MPEG-1 utiliza una precisión de vector de movimiento (MV) de la mitad de un píxel o medio pel. Cuanto mayor sea la precisión de los MV, más precisa será la coincidencia y más eficiente será la compresión. Sin embargo, existen compensaciones para una mayor precisión. Una precisión más fina de MV da como resultado el uso de una mayor cantidad de datos para representar el MV, ya que se deben almacenar números más grandes en el cuadro para cada MV, una mayor complejidad de codificación ya que se requieren niveles crecientes de interpolación en el macrobloque tanto para el codificador como para el decodificador. y rendimientos decrecientes (ganancias mínimas) con MV de mayor precisión. Se eligió la precisión de media película como la compensación ideal para ese momento. (Ver: qpel )

Debido a que es probable que los macrobloques vecinos tengan vectores de movimiento muy similares, esta información redundante se puede comprimir de manera bastante efectiva almacenándola con codificación DPCM . Sólo la cantidad (más pequeña) de diferencia entre los MV para cada macrobloque debe almacenarse en el flujo de bits final.

Los fotogramas P tienen un vector de movimiento por macrobloque, en relación con el fotograma de anclaje anterior. Los fotogramas B, sin embargo, pueden utilizar dos vectores de movimiento; uno del marco de anclaje anterior y otro del marco de anclaje futuro. [55]

Los macrobloques parciales y los bordes/barras negros codificados en el vídeo que no caen exactamente en el límite del macrobloque causan estragos en la predicción del movimiento. La información de relleno/borde del bloque impide que el macrobloque coincida estrechamente con cualquier otra área del vídeo y, por lo tanto, se debe codificar información de error de predicción significativamente mayor para cada uno de las varias docenas de macrobloques parciales a lo largo del borde de la pantalla. La codificación y cuantificación DCT (ver más abajo) tampoco son tan efectivas cuando hay un contraste de imagen grande y nítido en un bloque.

Un problema aún más grave existe con los macrobloques que contienen ruido de borde significativo y aleatorio , donde la imagen pasa a (normalmente) negro. Todos los problemas anteriores también se aplican al ruido de los bordes. Además, la aleatoriedad añadida es simplemente imposible de comprimir significativamente. Todos estos efectos reducirán sustancialmente la calidad (o aumentarán la tasa de bits) del video.

DCT

Cada bloque de 8 × 8 se codifica aplicando primero una transformada de coseno discreta directa (FDCT) y luego un proceso de cuantificación. El proceso FDCT (por sí solo) teóricamente no tiene pérdidas y se puede revertir aplicando una DCT inversa ( IDCT ) para reproducir los valores originales (en ausencia de errores de cuantificación y redondeo). En realidad, existen algunos errores de redondeo (a veces grandes) introducidos tanto por la cuantificación en el codificador (como se describe en la siguiente sección) como por el error de aproximación IDCT en el decodificador. La precisión mínima permitida de una aproximación IDCT de decodificador está definida por ISO/IEC 23002-1. (Antes de 2006, estaba especificado por IEEE 1180-1990).

El proceso FDCT convierte el bloque de 8×8 de valores de píxeles sin comprimir (valores de diferencia de brillo o color) en una matriz indexada de 8×8 de valores de coeficientes de frecuencia . Uno de ellos es el "coeficiente DC" (estadísticamente de alta variación), que representa el valor promedio de todo el bloque de 8 × 8. Los otros 63 coeficientes son los "coeficientes AC" estadísticamente más pequeños, que tienen valores positivos o negativos, cada uno de los cuales representa desviaciones sinusoidales del valor del bloque plano representado por el coeficiente DC.

Un ejemplo de un bloque FDCT codificado de 8 × 8:

Dado que el valor del coeficiente DC está estadísticamente correlacionado de un bloque al siguiente, se comprime mediante codificación DPCM . Sólo la cantidad (más pequeña) de diferencia entre cada valor de DC y el valor del coeficiente de DC en el bloque a su izquierda debe representarse en el flujo de bits final.

Además, la conversión de frecuencia realizada mediante la aplicación de DCT proporciona una función de descorrelación estadística para concentrar eficientemente la señal en menos valores de alta amplitud antes de aplicar la cuantificación (ver más abajo).

Cuantización

La cuantificación es, esencialmente, el proceso de reducir la precisión de una señal, dividiéndola por un paso mayor y redondeándola a un valor entero (es decir, encontrar el múltiplo más cercano y descartar el resto).

El cuantificador a nivel de fotograma es un número del 0 al 31 (aunque los codificadores normalmente omitirán/deshabilitarán algunos de los valores extremos) que determina cuánta información se eliminará de un fotograma determinado. El codificador generalmente selecciona dinámicamente el cuantificador a nivel de cuadro para mantener una determinada tasa de bits especificada por el usuario o (mucho menos comúnmente) lo especifica directamente el usuario.

Una "matriz de cuantificación" es una cadena de 64 números (que van del 0 al 255) que le dice al codificador qué tan relativamente importante o no importante es cada pieza de información visual. Cada número de la matriz corresponde a un determinado componente de frecuencia de la imagen de vídeo.

Un ejemplo de matriz de cuantificación:

La cuantificación se realiza tomando cada uno de los 64 valores de frecuencia del bloque DCT, dividiéndolos por el cuantificador a nivel de cuadro y luego dividiéndolos por sus valores correspondientes en la matriz de cuantificación. Finalmente, el resultado se redondea hacia abajo. Esto reduce significativamente, o elimina por completo, la información en algunos componentes de frecuencia de la imagen. Normalmente, la información de alta frecuencia es menos importante visualmente, por lo que las frecuencias altas están mucho más cuantificadas (reducidas drásticamente). MPEG-1 en realidad utiliza dos matrices de cuantificación separadas, una para intrabloques (bloques I) y otra para interbloques (bloques P y B), por lo que la cuantificación de diferentes tipos de bloques se puede realizar de forma independiente y, por lo tanto, más efectiva. . [3]

Este proceso de cuantificación generalmente reduce una cantidad significativa de coeficientes AC a cero (conocidos como datos dispersos), que luego se pueden comprimir de manera más eficiente mediante codificación de entropía (compresión sin pérdidas) en el siguiente paso.

Un ejemplo de bloque DCT cuantificado:

La cuantificación elimina una gran cantidad de datos y es el principal paso de procesamiento con pérdidas en la codificación de vídeo MPEG-1. Esta es también la fuente principal de la mayoría de los artefactos de compresión de video MPEG-1 , como bloqueos , bandas de color , ruido , timbres , decoloración, etc. Esto sucede cuando el vídeo se codifica con una tasa de bits insuficiente y, por lo tanto, el codificador se ve obligado a utilizar cuantificadores de alto nivel de fotogramas ( cuantización fuerte ) en gran parte del vídeo.

Codificación de entropía

Varios pasos en la codificación de vídeo MPEG-1 no tienen pérdidas, lo que significa que se revertirán durante la decodificación para producir exactamente los mismos valores (originales). Dado que estos pasos de compresión de datos sin pérdidas no agregan ruido ni cambian el contenido (a diferencia de la cuantificación), a veces se lo denomina codificación sin ruido . [47] Dado que la compresión sin pérdidas tiene como objetivo eliminar la mayor redundancia posible, se conoce como codificación de entropía en el campo de la teoría de la información .

Los coeficientes de los bloques DCT cuantificados tienden a cero hacia la parte inferior derecha. La compresión máxima se puede lograr mediante un escaneo en zigzag del bloque DCT comenzando desde la parte superior izquierda y utilizando técnicas de codificación de longitud de ejecución.

Los coeficientes DC y los vectores de movimiento están codificados en DPCM .

La codificación de longitud de ejecución (RLE) es un método simple para comprimir la repetición. Una cadena secuencial de caracteres, sin importar su longitud, se puede reemplazar con unos pocos bytes, anotando el valor que se repite y cuántas veces. Por ejemplo, si alguien dijera "cinco nueves", sabrías que se refiere al número: 99999.

RLE es particularmente efectivo después de la cuantificación, ya que una cantidad significativa de coeficientes AC ahora son cero (llamados datos dispersos) y se pueden representar con solo un par de bytes. Esto se almacena en una tabla Huffman bidimensional especial que codifica la longitud de la ejecución y el carácter de fin de la ejecución.

La codificación Huffman es un método de codificación de entropía muy popular y relativamente simple, y se utiliza en videos MPEG-1 para reducir el tamaño de los datos. Los datos se analizan para encontrar cadenas que se repitan con frecuencia. Luego, esas cadenas se colocan en una tabla especial, y a los datos que se repiten con mayor frecuencia se les asigna el código más corto. Esto mantiene los datos lo más pequeños posible con esta forma de compresión. [47] Una vez que se construye la tabla, esas cadenas en los datos se reemplazan con sus códigos (mucho más pequeños), que hacen referencia a la entrada apropiada en la tabla. El decodificador simplemente invierte este proceso para producir los datos originales.

Este es el paso final en el proceso de codificación de video, por lo que el resultado de la codificación Huffman se conoce como "flujo de bits" de video MPEG-1.

Configuraciones de GOP para aplicaciones específicas

Los I-frames almacenan información completa del marco dentro del marco y, por lo tanto, son adecuados para el acceso aleatorio. Los fotogramas P proporcionan compresión utilizando vectores de movimiento relativos al fotograma anterior ( I o P ). Los fotogramas B proporcionan la máxima compresión, pero requieren tanto el fotograma anterior como el siguiente para su cálculo. Por lo tanto, el procesamiento de fotogramas B requiere más buffer en el lado decodificado. Se debe seleccionar una configuración del grupo de imágenes (GOP) en función de estos factores. Las secuencias de solo fotograma I dan la menor compresión, pero son útiles para acceso aleatorio, FF/FR y capacidad de edición. Las secuencias de fotogramas I y P proporcionan una compresión moderada pero añaden un cierto grado de acceso aleatorio y funcionalidad FF/FR. Las secuencias de fotogramas I, P y B proporcionan una compresión muy alta pero también aumentan significativamente el retraso de codificación/decodificación. Por lo tanto, estas configuraciones no son adecuadas para aplicaciones de videotelefonía o videoconferencia.

La velocidad de datos típica de un fotograma I es de 1 bit por píxel, mientras que la de un fotograma P es de 0,1 bits por píxel y la de un fotograma B, de 0,015 bits por píxel. [56]

Parte 3: Audio

La parte 3 del estándar MPEG-1 cubre el audio y se define en ISO/IEC-11172-3.

MPEG-1 Audio utiliza psicoacústica para reducir significativamente la velocidad de datos requerida por una transmisión de audio. Reduce o descarta por completo ciertas partes del audio que deduce que el oído humano no puede oír , ya sea porque están en frecuencias donde el oído tiene una sensibilidad limitada, o porque están enmascaradas por otros sonidos (normalmente más fuertes). [57]

Modos de codificación de canales:

Tasas de muestreo :

Tasas de bits :

El audio MPEG-1 se divide en 3 capas. Cada capa superior es más compleja desde el punto de vista computacional y, en general, más eficiente a velocidades de bits más bajas que la anterior. [16] Las capas son semicompatibles con versiones anteriores, ya que las capas superiores reutilizan tecnologías implementadas por las capas inferiores. Un decodificador de Capa II "completo" también puede reproducir audio de Capa I, pero no audio de Capa III, aunque no todos los reproductores de nivel superior están "completos". [57]

Capa I

MPEG-1 Audio Layer I es una versión simplificada de MPEG-1 Audio Layer II. [18] La capa I utiliza un tamaño de fotograma más pequeño de 384 muestras para un retraso muy bajo y una resolución más fina. [26] Esto es ventajoso para aplicaciones como teleconferencias, edición de estudio, etc. Tiene menor complejidad que la Capa II para facilitar la codificación en tiempo real en el hardware disponible c.  1990 . [47]

La capa I tuvo una adopción limitada en su momento y, sobre todo, se utilizó en el desaparecido casete compacto digital de Philips a una velocidad de bits de 384 kbit/s. [2] Con las sustanciales mejoras de rendimiento en el procesamiento digital desde su introducción, la Capa I rápidamente se volvió innecesaria y obsoleta.

Los archivos de audio de Capa I suelen utilizar la extensión ".mp1" o, a veces, ".m1a".

Capa II

MPEG-1 Audio Layer II (la primera versión de MP2, a menudo llamada informalmente MUSICAM) [57] es un formato de audio con pérdida diseñado para proporcionar alta calidad a aproximadamente 192 kbit/s para sonido estéreo. [59] Decodificar audio MP2 es computacionalmente simple en relación con MP3, AAC , etc.

Historia/MÚSICA

MPEG-1 Audio Layer II se derivó del códec de audio MUSICAM ( Patrón de enmascaramiento adaptado Universal Subband Integrated Coding And Multiplexing ), desarrollado por el Centre commun d'études de télévision et télécommunications (CCETT), Philips y el Institut für Rundfunktechnik (IRT/CNET). ) [16] [18] [60] como parte de la iniciativa intergubernamental paneuropea de investigación y desarrollo EUREKA 147 para el desarrollo de la radiodifusión de audio digital.

La mayoría de las características clave de MPEG-1 Audio se heredaron directamente de MUSICAM, incluido el banco de filtros, el procesamiento en el dominio del tiempo, los tamaños de fotogramas de audio, etc. Sin embargo, se realizaron mejoras y el algoritmo MUSICAM real no se utilizó en el MPEG-1 final. Estándar de capa de audio II. El uso generalizado del término MUSICAM para referirse a la Capa II es totalmente incorrecto y no se recomienda por razones técnicas y legales. [57]

Detalles técnicos

MP2 es un codificador en el dominio del tiempo. Utiliza un banco de filtros polifásicos de 32 subbandas de bajo retardo para el mapeo de tiempo-frecuencia; tener rangos superpuestos (es decir, polifásicos) para evitar el alias. [61] El modelo psicoacústico se basa en los principios del enmascaramiento auditivo , los efectos de enmascaramiento simultáneos y el umbral absoluto de audición (ATH). El tamaño de un marco de Capa II se fija en 1152 muestras (coeficientes).

El dominio del tiempo se refiere a cómo se realiza el análisis y la cuantificación en muestras/fragmentos cortos y discretos de la forma de onda de audio. Esto ofrece un retardo bajo, ya que solo se analiza una pequeña cantidad de muestras antes de codificar, a diferencia de la codificación en el dominio de la frecuencia (como MP3), que debe analizar muchas más muestras antes de poder decidir cómo transformar y generar audio codificado. Esto también ofrece un mayor rendimiento en impulsos complejos, aleatorios y transitorios (como instrumentos de percusión y aplausos), evitando artefactos como el preeco.

El banco de filtros de 32 subbandas devuelve 32 coeficientes de amplitud , uno para cada banda/segmento de frecuencia del mismo tamaño del audio, que tiene aproximadamente 700 Hz de ancho (dependiendo de la frecuencia de muestreo del audio). Luego, el codificador utiliza el modelo psicoacústico para determinar qué subbandas contienen información de audio que es menos importante y, por lo tanto, dónde la cuantificación será inaudible o al menos mucho menos perceptible. [47]

Ejemplo de análisis FFT en una muestra de onda de audio.

El modelo psicoacústico se aplica mediante una transformada rápida de Fourier (FFT) de 1024 puntos . De las 1152 muestras por cuadro, para este análisis se ignoran 64 muestras en la parte superior e inferior del rango de frecuencia. Es de suponer que no son lo suficientemente importantes como para cambiar el resultado. El modelo psicoacústico utiliza un modelo de enmascaramiento determinado empíricamente para determinar qué subbandas contribuyen más al umbral de enmascaramiento y cuánto ruido de cuantificación puede contener cada una sin ser percibido. Cualquier sonido por debajo del umbral absoluto de audición (ATH) se descarta por completo. Luego, los bits disponibles se asignan a cada subbanda en consecuencia. [57] [61]

Normalmente, las subbandas son menos importantes si contienen sonidos más bajos (coeficiente menor) que una subbanda vecina (es decir, de frecuencia similar) con sonidos más fuertes (coeficiente mayor). Además, los componentes de "ruido" suelen tener un efecto de enmascaramiento más significativo que los componentes "tonales". [60]

La precisión de las subbandas menos significativas se reduce mediante la cuantificación. Básicamente, esto implica comprimir el rango de frecuencia (amplitud del coeficiente), es decir, aumentar el ruido de fondo. Luego, calcula un factor de amplificación para que el decodificador lo utilice para volver a expandir cada subbanda al rango de frecuencia adecuado. [62] [63]

La capa II también puede utilizar opcionalmente codificación estéreo de intensidad , una forma de estéreo conjunto. Esto significa que las frecuencias superiores a 6 kHz de ambos canales se combinan/mezclan en un único canal (mono), pero la información del "canal lateral" sobre la intensidad relativa (volumen, amplitud) de cada canal se conserva y codifica en el flujo de bits por separado. Durante la reproducción, el canal único se reproduce a través de los altavoces izquierdo y derecho, y la información de intensidad se aplica a cada canal para dar la ilusión de sonido estéreo. [47] [60] Este truco de percepción se conoce como "irrelevancia estéreo". Esto puede permitir una mayor reducción de la tasa de bits de audio sin una pérdida de fidelidad muy perceptible, pero generalmente no se usa con tasas de bits más altas ya que no proporciona audio de muy alta calidad (transparente). [47] [61] [64] [65]

Calidad

Las pruebas de audio subjetivas realizadas por expertos, en las condiciones más críticas jamás implementadas, han demostrado que MP2 ofrece una compresión de audio transparente a 256 kbit/s para audio de CD de 16 bits y 44,1 kHz utilizando la implementación de referencia más antigua (los codificadores más recientes presumiblemente deberían funcionar aún mejor). . [2] [60] [61] [66] Esa relación de compresión (aproximadamente) 1:6 para audio de CD es particularmente impresionante porque está bastante cerca del límite superior estimado de entropía perceptual , en poco más de 1:8. [67] [68] Lograr una compresión mucho mayor simplemente no es posible sin descartar alguna información perceptible.

MP2 sigue siendo un estándar de codificación de audio con pérdida favorito debido a sus rendimientos de codificación de audio particularmente altos en materiales de audio importantes como castañuelas, orquesta sinfónica, voces masculinas y femeninas y transitorios (impulsos) particularmente complejos y de alta energía como sonidos de percusión: triángulo, glockenspiel y audiencia. aplausos. [26] Pruebas más recientes han demostrado que MPEG multicanal (basado en MP2), a pesar de estar comprometido por un modo matricial inferior (en aras de la compatibilidad con versiones anteriores) [2] [61] tiene velocidades apenas ligeramente más bajas que los códecs de audio mucho más recientes. como Dolby Digital (AC-3) y Advanced Audio Coding (AAC) (en su mayoría dentro del margen de error, y sustancialmente superiores en algunos casos, como los aplausos de la audiencia). [69] [70] Esta es una de las razones por las que el audio MP2 continúa utilizándose ampliamente. Sin embargo, las pruebas de verificación estéreo MPEG-2 AAC llegaron a una conclusión muy diferente, mostrando que AAC proporciona un rendimiento superior al MP2 a la mitad de la tasa de bits. [71] La razón de esta disparidad con las pruebas anteriores y posteriores no está clara, pero, curiosamente, una muestra de aplauso está notablemente ausente en la última prueba.

Los archivos de audio de capa II suelen utilizar la extensión ".mp2" o, a veces, ".m2a".

Capa III

MPEG-1 Audio Layer III (la primera versión de MP3 ) es un formato de audio con pérdida diseñado para proporcionar una calidad aceptable de aproximadamente 64 kbit/s para audio monoaural a través de enlaces RDSI de un solo canal ( BRI ) y 128 kbit/s para sonido estéreo. .

Historia/ASPEC

ASPEC 91 en el Deutsches Museum Bonn , con codificador (abajo) y decodificador

MPEG-1 Audio Layer III se derivó del códec de codificación de entropía perceptual espectral adaptativa (ASPEC) desarrollado por Fraunhofer como parte de la iniciativa intergubernamental paneuropea de investigación y desarrollo EUREKA 147 para el desarrollo de la radiodifusión de audio digital. ASPEC se adaptó para encajar con el modelo de Capa II (tamaño de marco, banco de filtros, FFT, etc.), para convertirse en Capa III. [18]

ASPEC se basó en la codificación de audio espectral adaptativa múltiple (MSC) de EF Schroeder, la codificación óptima en el dominio de frecuencia (OCF), la tesis doctoral de Karlheinz Brandenburg en la Universidad de Erlangen-Nuremberg , la codificación de transformación perceptual (PXFM) de JD Johnston en AT&T Bell Labs y codificación transformada de señales de audio de Y. Mahieux y J. Petit en el Institut für Rundfunktechnik (IRT/CNET). [72]

Detalles técnicos

MP3 es un codificador de transformación de audio en el dominio de la frecuencia . Aunque utiliza algunas de las funciones de la capa inferior, MP3 es bastante diferente de MP2.

MP3 funciona con 1152 muestras como MP2, pero necesita tomar varios fotogramas para su análisis antes de que el procesamiento y la cuantificación en el dominio de la frecuencia (MDCT) puedan ser efectivos. Genera un número variable de muestras, utilizando un búfer de bits para habilitar esta codificación de tasa de bits variable (VBR) mientras mantiene 1152 fotogramas de salida de tamaño de muestra. Esto provoca un retraso significativamente mayor antes de la salida, lo que ha provocado que el MP3 se considere inadecuado para aplicaciones de estudio donde es necesario realizar edición u otro procesamiento. [61]

MP3 no se beneficia del banco de filtros polifásicos de 32 subbandas, sino que simplemente utiliza una transformación MDCT de 18 puntos en cada salida para dividir los datos en 576 componentes de frecuencia y procesarlos en el dominio de la frecuencia. [60] Esta granularidad adicional permite que MP3 tenga un modelo psicoacústico mucho más fino y aplique con más cuidado la cuantificación adecuada a cada banda, proporcionando un rendimiento mucho mejor a baja velocidad de bits.

El procesamiento en el dominio de la frecuencia también impone algunas limitaciones, lo que provoca una resolución temporal 12 o 36 veces peor que la Capa II. Esto provoca artefactos de cuantización, debido a sonidos transitorios como eventos de percusión y otros eventos de alta frecuencia que se extienden a lo largo de una ventana más grande. Esto produce manchas audibles y preeco . [61] MP3 utiliza rutinas de detección previa al eco y codificación VBR, lo que le permite aumentar temporalmente la tasa de bits durante pasajes difíciles, en un intento de reducir este efecto. También es capaz de cambiar entre la ventana de cuantificación normal de 36 muestras y, en su lugar, utilizar 3 ventanas cortas de 12 muestras para reducir la duración temporal (tiempo) de los artefactos de cuantificación. [61] Y, sin embargo, al elegir un tamaño de ventana bastante pequeño para que la respuesta temporal del MP3 sea lo suficientemente adecuada como para evitar los artefactos más graves, el MP3 se vuelve mucho menos eficiente en la compresión en el dominio de la frecuencia de componentes tonales estacionarios.

Verse obligado a utilizar un modelo híbrido de dominio de tiempo (banco de filtros)/dominio de frecuencia (MDCT) para encajar con la Capa II simplemente desperdicia tiempo de procesamiento y compromete la calidad al introducir artefactos de alias. MP3 tiene una etapa de cancelación de alias específicamente para enmascarar este problema, pero que en cambio produce energía en el dominio de la frecuencia que debe codificarse en el audio. Esto se lleva a la parte superior del rango de frecuencia, donde la mayoría de las personas tienen una audición limitada, con la esperanza de que la distorsión que causa sea menos audible.

La FFT de 1024 puntos de Layer II no cubre por completo todas las muestras y omitiría varias subbandas completas de MP3, donde se deben determinar los factores de cuantificación. En cambio, MP3 utiliza dos pases de análisis FFT para la estimación espectral, para calcular los umbrales de enmascaramiento globales e individuales. Esto le permite cubrir las 1152 muestras. De los dos, utiliza el nivel de umbral de enmascaramiento global del paso más crítico, con el audio más difícil.

Además del estéreo conjunto codificado en intensidad de Layer II, el MP3 puede usar estéreo conjunto medio/lateral (medio/lateral, m/s, MS, matricial). Con estéreo medio/lateral, ciertos rangos de frecuencia de ambos canales se fusionan en un único canal mono (medio, medio, L+R), mientras que la diferencia de sonido entre los canales izquierdo y derecho se almacena como un canal separado (lateral, LR). . A diferencia del estéreo de intensidad, este proceso no descarta ninguna información de audio. Sin embargo, cuando se combina con la cuantización, puede exagerar los artefactos.

Si la diferencia entre los canales izquierdo y derecho es pequeña, el canal lateral será pequeño, lo que ofrecerá hasta un 50 % de ahorro en la tasa de bits y la mejora de calidad asociada. Si la diferencia entre izquierda y derecha es grande, es posible que se prefiera la codificación estéreo estándar (discreta, izquierda/derecha), ya que la unión estéreo media/lateral no proporcionará ningún beneficio. Un codificador MP3 puede cambiar entre estéreo m/s y estéreo completo cuadro por cuadro. [60] [65] [73]

A diferencia de las Capas I y II, MP3 utiliza codificación Huffman de longitud variable (después de la percepción) para reducir aún más la tasa de bits, sin ninguna pérdida adicional de calidad. [57] [61]

Calidad

La cuantificación más fina y selectiva del MP3 resulta notablemente superior a la del MP2 a velocidades de bits más bajas. Es capaz de proporcionar una calidad de audio casi equivalente a la Capa II, con una tasa de bits un 15% menor (aproximadamente). [70] [71] 128 kbit/s se considera el "punto óptimo" para MP3; lo que significa que proporciona un sonido estéreo de calidad generalmente aceptable en la mayoría de la música, y las mejoras de calidad disminuyen al aumentar aún más la tasa de bits. También se considera que el MP3 presenta artefactos que son menos molestos que la Capa II, cuando ambos se utilizan a velocidades de bits demasiado bajas para proporcionar una reproducción fiel.

Los archivos de audio de Capa III utilizan la extensión ".mp3".

Extensiones de audio MPEG-2

El estándar MPEG-2 incluye varias extensiones de MPEG-1 Audio. [61] Estos se conocen como MPEG-2 BC y son compatibles con versiones anteriores de MPEG-1 Audio. [74] [75] [76] [77] El audio MPEG-2 se define en ISO/IEC 13818-3.

Estas velocidades de muestreo son exactamente la mitad de las definidas originalmente para MPEG-1 Audio. Se introdujeron para mantener un sonido de mayor calidad al codificar audio a velocidades de bits más bajas. [25] Se introdujeron tasas de bits aún más bajas porque las pruebas demostraron que MPEG-1 Audio podía proporcionar una calidad más alta que cualquier códec de audio de tasa de bits (es decir, voz ) muy baja existente ( c.  1994 ). [78]

Parte 4: Pruebas de conformidad

La parte 4 del estándar MPEG-1 cubre las pruebas de conformidad y se define en ISO/IEC-11172-4.

Conformidad: Procedimientos para probar la conformidad.

Proporciona dos conjuntos de pautas y flujos de bits de referencia para probar la conformidad de los decodificadores de audio y video MPEG-1, así como los flujos de bits producidos por un codificador. [16] [23]

Parte 5: software de referencia

La parte 5 del estándar MPEG-1 incluye software de referencia y se define en ISO/IEC TR 11172–5.

Simulación: Software de referencia.

Código de referencia C para codificación y decodificación de audio y vídeo, así como multiplexación y demultiplexación. [16] [23]

Esto incluye el código del codificador de audio ISO Dist10 , en el que se basaron originalmente LAME y TooLAME .

Extensión de archivo

.mpg es una de varias extensiones de archivo para compresión de audio y video MPEG-1 o MPEG-2 . El vídeo MPEG-1 Parte 2 es poco común hoy en día y esta extensión generalmente se refiere a una secuencia de programa MPEG (definida en MPEG-1 y MPEG-2) o una secuencia de transporte MPEG (definida en MPEG-2). También existen otros sufijos como .m2ts que especifican el contenedor preciso, en este caso MPEG-2 TS, pero esto tiene poca relevancia para los medios MPEG-1.

.mp3 es la extensión más común para archivos que contienen audio MP3 (normalmente audio MPEG-1, a veces audio MPEG-2). Un archivo MP3 suele ser una secuencia incontenida de audio sin formato; La forma convencional de etiquetar archivos MP3 es escribiendo datos en segmentos "basura" de cada fotograma, que conservan la información multimedia pero el reproductor los descarta. Esto es similar en muchos aspectos a cómo se etiquetan los archivos .AAC sin formato (pero esto es menos compatible hoy en día, por ejemplo, iTunes ).

Tenga en cuenta que, aunque sería aplicable, .mpg normalmente no agrega AAC o AAC sin formato en contenedores MPEG-2 Parte 7 . La extensión .aac normalmente denota estos archivos de audio.

Ver también

Implementaciones

Referencias

  1. ^ ab Patel K, Smith BC, Rowe LA (1 de septiembre de 1993). "Rendimiento de un software decodificador de vídeo MPEG". Actas de la primera conferencia internacional ACM sobre Multimedia - MULTIMEDIA '93 . ACM Multimedia. Ciudad de Nueva York: Asociación de Maquinaria de Computación. págs. 75–82. doi :10.1145/166266.166274. ISBN 978-0-89791-596-0. S2CID  3773268.La referencia 3 en el documento es el Borrador del Comité de la Norma ISO/IEC 11172, 6 de diciembre de 1991.
  2. ^ abcdef Adler, Marcos; Popp, Harald; Hjerde, Morten (9 de noviembre de 1996), MPEG-FAQ: compresión multimedia [1/9], faqs.org, archivado desde el original el 4 de enero de 2017 , consultado el 11 de noviembre de 2016
  3. ^ abcdefgh Le Gall, Didier (abril de 1991), MPEG: un estándar de compresión de video para aplicaciones multimedia (PDF) , Comunicaciones del ACM , archivado (PDF) desde el original el 27 de enero de 2017 , consultado el 11 de noviembre de 2016
  4. ^ Chiariglione, Leonardo (21 de octubre de 1989), Comunicado de prensa de Kurihama 89, ISO / IEC , archivado desde el original el 5 de agosto de 2010 , consultado el 9 de abril de 2008
  5. ^ ISO/IEC JTC 1/SC 29 (30 de octubre de 2009). "Programa de trabajo — Asignado al SC 29/WG 11, MPEG-1 (Codificación de imágenes en movimiento y audio asociado para medios de almacenamiento digital de hasta aproximadamente 1,5 Mbit/s)". Archivado desde el original el 31 de diciembre de 2013 . Consultado el 10 de noviembre de 2009 .{{cite web}}: CS1 maint: numeric names: authors list (link)
  6. ^ ISO. "ISO/IEC 11172-1:1993 - Tecnología de la información - Codificación de imágenes en movimiento y audio asociado para medios de almacenamiento digital de hasta aproximadamente 1,5 Mbit/s - Parte 1: Sistemas". Archivado desde el original el 12 de noviembre de 2016 . Consultado el 11 de noviembre de 2016 .
  7. ^ MPEG. "Acerca de MPEG: logros". chiariglione.org. Archivado desde el original el 8 de julio de 2008 . Consultado el 31 de octubre de 2009 .
  8. ^ MPEG. "Términos de referencia". chiariglione.org. Archivado desde el original el 21 de febrero de 2010 . Consultado el 31 de octubre de 2009 .
  9. ^ ab MPEG. "Estándares MPEG: lista completa de estándares desarrollados o en desarrollo". chiariglione.org. Archivado desde el original el 20 de abril de 2010 . Consultado el 31 de octubre de 2009 .
  10. ^ Lea, William (1994). Vídeo a la carta: Trabajo de investigación 94/68. Biblioteca de la Cámara de los Comunes . Archivado desde el original el 20 de septiembre de 2019 . Consultado el 20 de septiembre de 2019 .
  11. ^ "Historia de la compresión de vídeo". UIT-T . Equipo Conjunto de Vídeo (JVT) de ISO/IEC MPEG y ITU-T VCEG (ISO/IEC JTC1/SC29/WG11 y ITU-T SG16 Q.6). Julio de 2002. págs. 11, 24–9, 33, 40–1, 53–6 . Consultado el 3 de noviembre de 2019 .
  12. ^ Ghanbari, Mohammed (2003). Códecs estándar: desde compresión de imágenes hasta codificación de vídeo avanzada. Institución de Ingeniería y Tecnología . págs. 1–2. ISBN 9780852967102.
  13. ^ "Infografía sobre la historia de los formatos de archivos de vídeo". Redes reales . 22 de abril de 2012 . Consultado el 5 de agosto de 2019 .
  14. ^ Hans Geog Musmann, Génesis del estándar de codificación de audio MP3 (PDF) , archivado desde el original (PDF) el 17 de enero de 2012 , consultado el 26 de julio de 2011
  15. ^ abcdefghijkl Fogg, Chad (2 de abril de 1996), Preguntas frecuentes sobre MPEG-2 (sitio web archivado), Universidad de California, Berkeley , archivado desde el original el 16 de junio de 2008 , consultado el 11 de noviembre de 2016
  16. ^ Chiariglione, Leonardo (marzo de 2001), Código abierto en MPEG, Linux Journal , archivado desde el original el 25 de julio de 2011 , consultado el 9 de abril de 2008
  17. ^ abcd Chiariglione, Leonardo; Le Gall, Didier; Musmann, Hans-Georg; Simon, Allen (septiembre de 1990), Comunicado de prensa: informe de estado de ISO MPEG, ISO / IEC , archivado desde el original el 14 de febrero de 2010 , consultado el 9 de abril de 2008
  18. ^ Reuniones, ISO / IEC , archivado desde el original el 10 de febrero de 2010 , consultado el 9 de abril de 2008
  19. ^ ab "Preguntas frecuentes sobre MPEG, versión 3.1". Archivado desde el original el 23 de julio de 2009 . Consultado el 12 de octubre de 2008 . P. Bueno, entonces ¿cómo obtengo los documentos, como el MPEG que borrador? R. MPEG es un borrador del estándar ISO. Su nombre [ sic ] exacto es ISO CD 11172. [...] Puede solicitarlo a su organismo nacional de normalización (por ejemplo, ANSI en EE. UU.) o comprarlo a empresas como OMNICOM [...]
  20. ^ "Comunicado de prensa MPEG" (Comunicado de prensa). ISO/CEI JTC1/SC29/WG11. 6 de noviembre de 1992. Archivado desde el original el 12 de agosto de 2010 . Consultado el 7 de mayo de 2018 .
  21. ^ "Página de resumen n.º 101". Archivado desde el original el 6 de octubre de 2008 . Consultado el 13 de julio de 2008 . "BMRC". Archivado desde el original el 12 de junio de 2008 . Consultado el 13 de julio de 2008 .Un reproductor multimedia continuo, Lawrence A. Rowe y Brian C. Smith, Proc. 3° Int. Taller sobre soporte de redes y sistemas operativos para audio y vídeo digitales, San Diego CA (noviembre de 1992) [ enlace muerto ]
  22. ^ abc Achievements, ISO / IEC , archivado desde el original el 8 de julio de 2008 , consultado el 3 de abril de 2008
  23. ^ Chiariglione, Leonardo (6 de noviembre de 1992), Comunicado de prensa MPEG, Londres, 6 de noviembre de 1992, ISO / IEC , archivado desde el original el 12 de agosto de 2010 , consultado el 9 de abril de 2008
  24. ^ abc Wallace, Greg (2 de abril de 1993), Comunicado de prensa, ISO / IEC , archivado desde el original el 6 de agosto de 2010 , consultado el 9 de abril de 2008
  25. ^ abcd Popp, Harald; Hjerde, Morten (9 de noviembre de 1996), MPEG-FAQ: compresión multimedia [2/9], faqs.org, archivado desde el original el 4 de enero de 2017 , consultado el 11 de noviembre de 2016
  26. ^ "ORGANIZACIÓN INTERNACIONAL DE NORMALIZACIÓN ORGANIZACIÓN INTERNACIONAL DE NORMALIZACIÓN ISO". 26 de julio de 2010. Archivado desde el original el 26 de julio de 2010 . Consultado el 7 de mayo de 2018 .
  27. ^ ISO/IEC JTC 1/SC 29 (17 de julio de 2010). "MPEG-1 (Codificación de imágenes en movimiento y audio asociado para medios de almacenamiento digital de hasta aproximadamente 1,5 Mbit/s)". Archivado desde el original el 31 de diciembre de 2013 . Consultado el 18 de julio de 2010 .{{cite web}}: CS1 maint: numeric names: authors list (link)
  28. ^ ISO. "ISO/IEC 11172-1:1993 - Tecnología de la información - Codificación de imágenes en movimiento y audio asociado para medios de almacenamiento digital de hasta aproximadamente 1,5 Mbit/s - Parte 1: Sistemas". Archivado desde el original el 30 de agosto de 2017 . Consultado el 11 de noviembre de 2016 .
  29. ^ ISO. "ISO/IEC 11172-2:1993 - Tecnología de la información - Codificación de imágenes en movimiento y audio asociado para medios de almacenamiento digital de hasta aproximadamente 1,5 Mbit/s - Parte 2: Vídeo". Archivado desde el original el 30 de agosto de 2017 . Consultado el 11 de noviembre de 2016 .
  30. ^ ISO. "ISO/IEC 11172-3:1993 - Tecnología de la información - Codificación de imágenes en movimiento y audio asociado para medios de almacenamiento digital de hasta aproximadamente 1,5 Mbit/s - Parte 3: Audio". Archivado desde el original el 15 de mayo de 2017 . Consultado el 11 de noviembre de 2016 .
  31. ^ ISO. "ISO/IEC 11172-4:1995 - Tecnología de la información - Codificación de imágenes en movimiento y audio asociado para medios de almacenamiento digital de hasta aproximadamente 1,5 Mbit/s - Parte 4: Pruebas de cumplimiento". Archivado desde el original el 30 de agosto de 2017 . Consultado el 11 de noviembre de 2016 .
  32. ^ ISO. "ISO/IEC TR 11172-5:1998 - Tecnología de la información - Codificación de imágenes en movimiento y audio asociado para medios de almacenamiento digital de hasta aproximadamente 1,5 Mbit/s - Parte 5: Simulación de software". Archivado desde el original el 30 de agosto de 2017 . Consultado el 11 de noviembre de 2016 .
  33. ^ Ozer, Jan (12 de octubre de 2001), Elección de la resolución de vídeo óptima: el mercado de reproductores MPEG-2, extremetech.com , archivado desde el original el 7 de junio de 2011 , consultado el 11 de noviembre de 2016
  34. ^ Comparación entre MPEG 1 y 2, archivado desde el original el 10 de febrero de 2012 , consultado el 11 de noviembre de 2016
  35. ^ MPEG 1 y 2 comparados, Pure Motion Ltd., 2003, archivado desde el original el 14 de diciembre de 2005 , consultado el 9 de abril de 2008
  36. ^ Dave Singer (9 de noviembre de 2007). "tarea] resumen de la discusión sobre el códec de vídeo (y audio)". Archivado desde el original el 21 de diciembre de 2016 . Consultado el 11 de noviembre de 2016 .
  37. ^ "Codificación de vídeo MPEG-1 (H.261)". Biblioteca del Congreso , Preservación Digital. 21 de octubre de 2014. Archivado desde el original el 11 de enero de 2017 . Consultado el 11 de noviembre de 2016 .
  38. ^ "Patentes y Normas ISO". Archivado desde el original el 15 de noviembre de 2016 . Consultado el 11 de noviembre de 2016 . Buscar 11172
  39. ^ "archivo.ph". archivo.ph . Archivado desde el original el 16 de septiembre de 2008 . Consultado el 21 de enero de 2023 .{{cite web}}: CS1 maint: bot: original URL status unknown (link)
  40. ^ "[gst-devel] ¿Puede un MPEG-1 con el complemento Audio Layers 1 y 2 estar en buen estado de complementos (en términos de patente)?". FuenteForge.net . 2008-08-23. Archivado desde el original el 2 de febrero de 2014 . Consultado el 11 de noviembre de 2016 .
  41. ^ "[whatwg] Propuesta de subconjunto MPEG-1 para códec de vídeo HTML5". listas.whatwg.org . Archivado desde el original el 19 de julio de 2011 . Consultado el 11 de enero de 2022 .
  42. ^ http://patft1.uspto.gov/netacgi/nph-Parser?patentnumber=5214678 Archivado el 13 de julio de 2012 en archive.today "Sistema de transmisión digital que utiliza codificación de subbanda de una señal digital" Archivado: 31 de mayo de 1990, concedido 25 de mayo de 1993, ¿expira el 31 de mayo de 2010?
  43. ^ "MP3 (codificación de audio MPEG capa III)". www.loc.gov . 2023-04-21 . Consultado el 24 de septiembre de 2023 .
  44. ^ "mp3". Instituto Fraunhofer de Circuitos Integrados IIS . Archivado desde el original el 22 de marzo de 2018 . Consultado el 7 de mayo de 2018 .
  45. ^ "Patentes y Normas ISO". YO ASI . Consultado el 10 de julio de 2019 .
  46. ^ abcdefg Parrilla, B.; Quackenbush, S. (octubre de 2005), MPEG-1 Audio, ISO / IEC , archivado desde el original el 30 de abril de 2010
  47. ^ Chiariglione, Leonardo, MPEG-1 Systems, ISO / IEC , archivado desde el original el 12 de noviembre de 2016 , consultado el 11 de noviembre de 2016
  48. ^ ab Pack Header, archivado desde el original el 27 de octubre de 2016 , consultado el 11 de noviembre de 2016
  49. ^ Fimoff, Mark; Bretl, Wayne E. (1 de diciembre de 1999), Tutorial de MPEG2, archivado desde el original el 12 de noviembre de 2016 , consultado el 11 de noviembre de 2016
  50. ^ Fimoff, Mark; Bretl, Wayne E. (1 de diciembre de 1999), Tutorial de MPEG2, archivado desde el original el 5 de noviembre de 2016 , consultado el 11 de noviembre de 2016
  51. ^ Fimoff, Mark; Bretl, Wayne E. (1 de diciembre de 1999), Tutorial de MPEG2, archivado desde el original el 5 de noviembre de 2016 , consultado el 11 de noviembre de 2016
  52. ^ Fimoff, Mark; Bretl, Wayne E. (1 de diciembre de 1999), Tutorial de MPEG2, archivado desde el original el 12 de noviembre de 2016 , consultado el 11 de noviembre de 2016
  53. ^ Acharya, Soam; Smith, Brian (1998), Transcodificación de dominio comprimido de MPEG, Universidad de Cornell , IEEE Computer Society , Conferencia internacional IEEE sobre sistemas e informática multimedia, p. 3, archivado desde el original el 23 de febrero de 2011 , consultado el 11 de noviembre de 2016– (Requiere una lectura inteligente: dice que las matrices de cuantificación difieren, pero son solo valores predeterminados y seleccionables) ( se requiere registro )
  54. ^ abc Wee, Susie J.; Vasudev, Bhaskaran; Liu, Sam (13 de marzo de 1997), Transcodificación de transmisiones de vídeo MPEG en el dominio comprimido, Hewlett-Packard , CiteSeerX 10.1.1.24.633 , archivado desde el original el 17 de agosto de 2007 , consultado el 11 de noviembre de 2016 
  55. ^ "BMRC". Archivado desde el original el 3 de mayo de 2009 . Consultado el 3 de mayo de 2009 .
  56. ^ abcdef Thom, D.; Purnhagen, H. (octubre de 1998), Preguntas frecuentes sobre MPEG Audio versión 9, ISO / IEC , archivado desde el original el 18 de febrero de 2010 , consultado el 11 de noviembre de 2016
  57. ^ Encabezado de cuadro de audio MPEG, archivado desde el original el 8 de febrero de 2015 , consultado el 11 de noviembre de 2016
  58. ^ Estándar de audio: MPEG-2 Número de pieza: 3
  59. ^ abcdef Church, Steve, Codificación perceptual y compresión MPEG, Manual de ingeniería de NAB, Telos Systems , archivado desde el original el 8 de mayo de 2001 , consultado el 9 de abril de 2008
  60. ^ abcdefghij Pan, Davis (verano de 1995), Tutorial sobre compresión de audio/MPEG (PDF) , IEEE MultiMedia Journal, p. 8, archivado desde el original (PDF) el 19 de septiembre de 2004 , consultado el 9 de abril de 2008
  61. ^ Smith, Brian (1996), Estudio de técnicas de procesamiento de dominios comprimidos, Universidad de Cornell , p. 7, archivado desde el original el 23 de febrero de 2011 , consultado el 9 de abril de 2008.( Se requiere registro )
  62. ^ Cheng, Mike, Modelos psicoacústicos en TwoLAME, twolame.org, archivado desde el original el 22 de octubre de 2016 , consultado el 11 de noviembre de 2016
  63. ^ Parrilla, B.; Quackenbush, S. (octubre de 2005), Audio MPEG-1, archivado desde el original el 27 de abril de 2008 , consultado el 11 de noviembre de 2016
  64. ^ ab Herre, Jurgen (5 de octubre de 2004), De la codificación de audio estéreo conjunta a la codificación de audio espacial (PDF) , Conferencia internacional sobre efectos de audio digital , p. 2, archivado desde el original (PDF) el 5 de abril de 2006 , consultado el 17 de abril de 2008
  65. ^ C.Grewin y T.Ryden, Evaluaciones subjetivas sobre códecs de audio de baja velocidad de bits , Actas de la décima conferencia internacional AES, págs. 91 - 102, Londres 1991
  66. ^ J. Johnston, Estimación de la entropía perceptiva utilizando criterios de enmascaramiento de ruido, en Proc. ICASSP-88, págs. 2524-2527, mayo de 1988.
  67. ^ J. Johnston, Transformación de codificación de señales de audio utilizando criterios de ruido perceptivo, Revista IEEE sobre áreas seleccionadas de las comunicaciones, vol. 6, núm. 2, págs. 314-323, febrero de 1988.
  68. ^ Wustenhagen et al., Prueba de escucha subjetiva de códecs de audio multicanal , AES 105th Convention Paper 4813, San Francisco 1998
  69. ^ ab B/MAE Project Group (septiembre de 2007), Evaluaciones de la UER de códecs de audio multicanal (PDF) , Unión Europea de Radiodifusión , archivado desde el original (PDF) el 30 de octubre de 2008 , consultado el 9 de abril de 2008
  70. ^ ab Meares, David; Watanabe, Kaoru; Scheirer, Eric (febrero de 1998), Informe sobre las pruebas de verificación estéreo MPEG-2 AAC (PDF) , ISO / IEC , p. 18, archivado desde el original (PDF) el 14 de abril de 2008 , consultado el 11 de noviembre de 2016
  71. ^ Pintor, Ted; Spanias, Andreas (abril de 2000), Perceptual Coding of Digital Audio (Actas del IEEE, VOL. 88, NO. 4) (PDF) , Actas del IEEE , archivado desde el original (PDF) el 16 de septiembre de 2006 , recuperado 2016-11-11
  72. ^ Amorim, Roberto (19 de septiembre de 2006), GPSYCHO - Mid/Side Stereo, LAME , archivado desde el original el 16 de diciembre de 2016 , recuperado 2016-11-11
  73. ^ ISO (octubre de 1998). "Preguntas frecuentes sobre MPEG Audio versión 9: MPEG-1 y MPEG-2 BC". YO ASI. Archivado desde el original el 18 de febrero de 2010 . Consultado el 11 de noviembre de 2016 .
  74. ^ D. Thom, H. Purnhagen y el subgrupo de audio MPEG (octubre de 1998). "Preguntas frecuentes sobre audio MPEG versión 9: audio MPEG". Archivado desde el original el 7 de agosto de 2011 . Consultado el 11 de noviembre de 2016 .{{cite web}}: CS1 maint: multiple names: authors list (link)
  75. ^ MPEG.ORG. "CAA". Archivado desde el original el 31 de agosto de 2007 . Consultado el 28 de octubre de 2009 .
  76. ^ ISO (2006-01-15), ISO/IEC 13818-7, Cuarta edición, Parte 7 - Codificación de audio avanzada (AAC) (PDF) , archivado (PDF) desde el original el 6 de marzo de 2009 , consultado en 2016. 11-11
  77. Chiariglione, Leonardo (11 de noviembre de 1994), Comunicado de prensa, ISO / IEC , archivado desde el original el 8 de agosto de 2010 , consultado el 9 de abril de 2008

enlaces externos