Dolby Digital Plus

Dolby Digital Plus , también conocido como Enhanced AC-3 (y comúnmente abreviado como DDP , DD+ , E-AC-3 o EC-3 ), es un esquema de compresión de audio digital desarrollado por Dolby Labs para el transporte y almacenamiento de audio digital multicanal. Es un sucesor de Dolby Digital (AC-3), y tiene una serie de mejoras sobre ese códec, incluyendo soporte para un rango más amplio de velocidades de datos (32 kbit/s a 6144 kbit/s), un mayor número de canales y soporte multiprograma (a través de substreams), así como herramientas adicionales (algoritmos) para representar datos comprimidos y contrarrestar artefactos. Mientras que Dolby Digital (AC-3) admite hasta cinco canales de audio de ancho de banda completo a una tasa de bits máxima de 640 kbit/s, E-AC-3 admite hasta 15 canales de audio de ancho de banda completo a una tasa de bits máxima de 6,144 Mbit/s .

El conjunto completo de especificaciones técnicas para E-AC-3 (y AC-3) está estandarizado y publicado en el Anexo E de ATSC A/52:2012, ^[1] así como en el Anexo E de ETSI TS 102 366. ^[2]

Detalles técnicos

Presupuesto

Dolby Digital Plus es capaz de lo siguiente:

Tasa de bits codificada: 0,032 a 6,144 Mbit/s
Canales de audio: 1.0 a 15.1 (es decir, desde mono hasta 15 canales de rango completo y un canal de efectos de baja frecuencia)
Número de programas de audio por flujo de bits: 8
Frecuencia de muestreo: 32, 44,1 o 48 kHz

Estructura

Un servicio Dolby Digital Plus consta de una o más subtransmisiones . Existen tres tipos de subtransmisiones:

Subflujos independientes, que pueden contener un único programa de hasta 5.1 canales. En un flujo Dolby Digital Plus pueden estar presentes hasta ocho subflujos dependientes. Los canales presentes en un subflujo independiente se limitan a los 5.1 canales tradicionales: canales izquierdo (L), derecho (R), central (C), envolvente izquierdo (Ls) y envolvente derecho (Rs), así como un canal de efectos de baja frecuencia (Lfe).
Subflujos heredados, que contienen un único programa 5.1 y que corresponden directamente al contenido Dolby Digital. Como máximo, puede haber un único subflujo heredado en un flujo DD+.
Subflujos dependientes, que contienen canales adicionales además de los canales 5.1 tradicionales. Como los subflujos dependientes tienen la misma estructura que los subflujos independientes, cada subflujo dependiente puede contener hasta cinco canales de ancho de banda completo y un canal de baja frecuencia; sin embargo, estos canales pueden asignarse a diferentes ubicaciones de altavoces. Los metadatos del subflujo describen el propósito de cada canal incluido.

Todas las transmisiones DD+ deben contener al menos una subtransmisión independiente o una subtransmisión heredada, que contenga los primeros (o únicos) canales 5.1 del programa de audio principal. Se pueden utilizar subtransmisiones independientes adicionales para programas de audio secundarios, como bandas sonoras en idiomas extranjeros, comentarios o descripciones/voces en off para personas con discapacidad visual. Se pueden proporcionar subtransmisiones dependientes para programas que tengan canales de escenario sonoro adicionales además de 5.1.

En cada subflujo se prevé la codificación de cinco canales de ancho de banda completo, un canal de baja frecuencia y un canal de acoplamiento. El canal de acoplamiento se utiliza para la información de frecuencia media a alta que es común a varios canales de ancho de banda completo. Su contenido se mezcla con los demás canales de la forma prescrita por los metadatos, no se reproduce como un canal discreto por el decodificador.

Dolby Digital Plus incluye metadatos de flujo de bits completos para el control del decodificador sobre la sonoridad de salida (a través de dialnorm), la mezcla descendente y el control del rango dinámico reversible (a través de DRC).

Sintaxis

Dolby Digital Plus es nominalmente un protocolo alineado a 16 bits, aunque muy pocos campos en la sintaxis respetan los límites de bytes o palabras. Como muchos elementos de sintaxis son opcionales o de longitud variable, incluidos algunos cuya presencia o longitud depende de cálculos previos complejos, y hay poca redundancia en la sintaxis, DD+ puede ser extremadamente difícil de analizar correctamente, y los codificadores defectuosos pueden producir fácilmente análisis sintácticamente válidos pero incorrectos.

Un flujo DD+ es una colección de paquetes de tramas de sincronización de longitud fija , cada uno de los cuales corresponde a 256, 512, 768 o 1536 muestras de audio consecutivas en el dominio del tiempo. (El caso de 1536 muestras es el caso más común y corresponde a Dolby Digital; las longitudes de subtrama más cortas están destinadas a su uso en aplicaciones interactivas como los videojuegos, donde la reducción de la latencia del codificador es una preocupación importante). Cada trama de sincronización se puede decodificar de forma independiente y pertenece a una subsecuencia específica dentro del servicio. Una trama de sincronización consta de los siguientes elementos de sintaxis (algunos de los cuales pueden omitirse cuando un servicio Dolby Digital Plus se encapsula en otro formato o transporte):

Una palabra de sincronización de 16 bits, que tiene el valor 0x0b77.
Una sección de información de flujo de bits (BSI), que incluye metadatos clave como el tamaño del marco, el identificador de flujo de bits (que especifica la versión de sintaxis utilizada), el modo de canal, el identificador de subflujo, el nivel de diálogo codificado (dialnorm) y metadatos para guiar la producción del decodificador de un downmix.
Una sección de marco de audio, que contiene información de decodificación común a todos los bloques de audio dentro del marco de sincronización, incluida la información necesaria para determinar cómo se empaquetan los exponentes y las mantisas .
Una, dos, tres o seis secciones de bloques de audio. Estas secciones contienen metadatos de decodificación adicionales, así como los coeficientes de frecuencia codificados y cuantificados. Cada bloque de audio corresponde a 256 muestras PCM en cada canal.
Una sección final que contiene datos auxiliares definidos por el usuario, cualquier relleno necesario para producir longitudes de cuadros de sincronización uniformes y un código de verificación de redundancia cíclica de 16 bits para la detección de errores.

Almacenamiento de coeficientes de transformación

En el corazón de Dolby Digital y DD+ se encuentra una transformada de coseno discreta modificada (MDCT), que se utiliza para transformar la señal de audio en el dominio de frecuencia; dentro de cada bloque se pueden transmitir hasta 256 coeficientes de frecuencia. Los coeficientes se transmiten en un formato binario de punto flotante, con exponentes transmitidos por separado de las mantisas. Esto permite una codificación altamente eficiente.

Los exponentes de cada canal se codifican en un formato diferencial altamente empaquetado, y los deltas entre los contenedores de frecuencia consecutivos (excepto el primero) se proporcionan en la secuencia. Se utilizan tres formatos o estrategias de exponentes ; se conocen como "D15", "D25" y "D45". En D15, cada contenedor tiene un exponente único, mientras que en D25 y D45, los valores delta corresponden a pares o cuartetos de contenedores de frecuencia. Los bloques de audio que no sean el primero en un marco de sincronización pueden reutilizar adicionalmente el conjunto de exponentes del bloque anterior (esto es necesario para los canales que utilizan la Transformada híbrida adaptativa).

Los exponentes decodificados, junto con un conjunto de parámetros de metadatos, se utilizan para derivar los punteros de asignación de bits (BAP), que especifican la cantidad de bits asignados a cada mantisa. A los contenedores que corresponden a frecuencias en las que la audición humana es más precisa se les asignan más bits; a los contenedores que corresponden a frecuencias a las que los humanos son menos sensibles se les asignan menos. Se puede asignar cualquier valor entre cero y 16 bits para cada mantisa; si se transmiten cero bits, se puede aplicar opcionalmente una función de oscilación para generar el coeficiente de frecuencia.

Algoritmo

Dolby Digital Plus, al igual que muchos códecs de audio con pérdida, utiliza una representación de la señal en el dominio de frecuencia fuertemente cuantificada para lograr la ganancia de codificación ; esta sección describe el funcionamiento de la transformación base, así como varias "herramientas" opcionales especificadas por el estándar, que se utilizan para lograr una mayor compresión o para reducir los artefactos de codificación audibles. ^[3]

Transformada de coseno discreta modificada

Tanto el codificador Dolby Digital como el DD+ convierten una señal de audio multicanal al dominio de frecuencia mediante la transformada de coseno discreta modificada (MDCT), con una longitud de bloque conmutable de 256 o 512 muestras (la última se utiliza con señales estacionarias, la primera con señales transitorias). A continuación, la representación del dominio de frecuencia se cuantifica según un modelo psicoacústico y se transmite. Se utiliza un formato de punto flotante para los coeficientes de frecuencia, y las mantisas y los exponentes se almacenan y transmiten por separado, ambos muy comprimidos.

Transformación híbrida adaptativa (AHT)

Para señales altamente estacionarias, como notas largas en una interpretación musical, se utiliza la Transformada Híbrida Adaptativa (AHT). Esta herramienta es exclusiva de Dolby Digital Plus (y no es compatible con Dolby Digital) y utiliza una transformada de coseno discreta de tipo II (DCT) adicional para combinar seis bloques de transformada adyacentes (ubicados dentro de un marco de sincronización) en un bloque efectivamente más largo. Además de la transformada de dos etapas, se utiliza una estructura de asignación de bits diferente y se implementan dos formas de representar mantisas codificadas: el uso de cuantificación vectorial , que proporciona la mayor ganancia de codificación, y el uso de cuantificación adaptada a la ganancia (GAQ) cuando se requiere una mayor fidelidad de la señal. La cuantificación adaptativa a la ganancia se puede habilitar de forma independiente para cada intervalo de frecuencia dentro de un canal y permite la codificación de mantisas de longitud variable.

Enganche

Como muchos programas de audio multicanal tienen altos grados de correlación entre canales individuales, se suele utilizar un canal de acoplamiento. La información de alta frecuencia que es común entre dos o más canales se transmite en un canal separado (que no es reproducido por un decodificador, sino que solo se mezcla con los canales originales), conocido como canal de acoplamiento; junto con coeficientes conocidos como "coordenadas de acoplamiento" que guían al decodificador sobre cómo reconstruir los canales originales.

Dolby Digital Plus admite una versión más elaborada de la herramienta de acoplamiento conocida como Enhanced Coupling (ECPL). Este algoritmo, cuyo procesamiento es considerablemente más costoso (tanto para codificadores como para decodificadores), permite incluir información de fase en las coordenadas de acoplamiento, lo que permite preservar las relaciones de fase entre los canales acoplados.

Extensión espectral

Dolby Digital Plus ofrece otra herramienta para las frecuencias altas. Como los componentes de alta frecuencia suelen ser armónicos de sonidos de frecuencia más baja, la extensión espectral (SPX) permite sintetizar los componentes de alta frecuencia de forma algorítmica a partir de componentes de frecuencia más baja. Esta herramienta también es exclusiva de Dolby Digital Plus y no es compatible con Dolby Digital.

Rematrificación

Los programas estéreo suelen rematrizarse y codificarse como un canal L+R y LR. Esto se hace tanto para aumentar la ganancia de codificación (el canal LR normalmente se puede comprimir mucho y la posterior eliminación de la matriz hará que se cancelen muchos artefactos de compresión) como para preservar las relaciones de fase necesarias para la reproducción adecuada del material codificado en Dolby Surround .

Procesamiento de pre-ruido transitorio

El procesamiento de pre-ruido transitorio (TPNP) es una herramienta específica de Dolby Digital Plus que reduce los artefactos resultantes de la cuantificación de la señal y otras técnicas de compresión. A diferencia de las otras herramientas descritas anteriormente, que funcionan en el dominio de la frecuencia y preceden a la conversión de nuevo a muestras PCM, TPNP es una herramienta que básicamente realiza una operación de cortar y pegar en ventana sobre la señal del dominio del tiempo para borrar ciertos artefactos de cuantificación predecibles.

Relación con Dolby Digital y Dolby Atmos

Los flujos de bits de Dolby Digital Plus no son directamente compatibles con los decodificadores Dolby Digital tradicionales . Sin embargo, Dolby Digital Plus es un superconjunto funcional de Dolby Digital, y los decodificadores incluyen un componente obligatorio que convierte directamente (sin decodificar ni volver a codificar) el flujo de bits de Dolby Digital Plus en un flujo de bits de Dolby Digital (que funciona a 640 kbit/s) para su transporte a través de conexiones S/PDIF tradicionales (incluidas S/PDIF sobre HDMI) a decodificadores externos (por ejemplo, AVR, etc.). Todos los decodificadores Dolby Digital Plus pueden decodificar flujos de bits de Dolby Digital.

Sin embargo, los flujos de bits de Dolby Atmos están codificados para ser compatibles con decodificadores Dolby Digital Plus y, como tal, Dolby Atmos puede ser decodificado por dispositivos compatibles con Dolby Digital Plus. Dolby lo ha comercializado como la variación de compresión con pérdida de Dolby Atmos bajo la etiqueta "Dolby Digital Plus Atmos" para diferenciarlo del original sin pérdida basado en DolbyHD. La mayoría de los flujos de bits de Dolby Digital Plus ahora están codificados en codificación Atmos.

Compresión de rango dinámico

Uno de los objetivos de diseño de DD+ es la reproducción de calidad en una variedad de entornos, desde cines en casa y otros entornos acústicamente controlados donde es posible la reproducción de alto rango dinámico, hasta entornos portátiles y automotrices donde hay mucho ruido de fondo y puede ser necesaria la compresión del rango dinámico para que todas las partes de un programa de audio sean audibles.

DD+ proporciona los siguientes modos operativos para diferentes entornos de oyente/espectador.

Modos de funcionamiento del decodificador Dolby Digital Plus:

Nota: Todos los modos de funcionamiento del decodificador (enumerados anteriormente) están disponibles en todos los decodificadores Dolby Digital Plus. El modo de funcionamiento predeterminado depende de la categoría del dispositivo y de la aplicación. En algunos dispositivos, los usuarios también pueden tener la opción (a través del menú) de seleccionar un modo alternativo que se adapte a sus gustos y/o aplicaciones particulares.

Además, Dolby Digital y DD+ contienen metadatos adicionales para permitir una traducción sin errores en canales descendentes de rango restringido, como la modulación de RF, donde una amplitud excesiva de la señal de salida puede generar una distorsión significativa o errores de modulación.

Encapsulación, uso y almacenamiento de transmisiones Dolby Digital

Transporte físico para dispositivos de consumo

IEC 61937-3: define cómo transmitir secuencias de bits Dolby Digital (AC-3) y Dolby Digital Plus (E-AC-3) a través de una interfaz IEC 60958/61937 (S/PDIF). Sin embargo, la interfaz S/PDIF no tiene suficiente ancho de banda para transportar secuencias de bits Dolby Digital Plus (E-AC-3) a la velocidad de datos de 3,0 Mbit/s especificada por HD DVD; son posibles velocidades de datos inferiores.

Muchos equipos de consumo, e incluso algunos equipos profesionales, no reconocen Dolby Digital Plus como un formato codificado y tratarán las señales DD+ a través de una interfaz S/PDIF o similar, o almacenadas en un archivo .WAV o un formato contenedor similar, como si fueran datos PCM lineales. Esto no es problemático si los datos se transmiten sin cambios, pero cualquier escala de ganancia o conversión de frecuencia de muestreo, operaciones que son auditivamente inofensivas para los datos PCM, dañarán y destruirán una transmisión Dolby Digital Plus. (Es más probable que los códecs más antiguos, como DTS o AC-3, se reconozcan como formatos comprimidos y estén protegidos de dicho procesamiento).

Dolby Digital Plus se puede transmitir a través de HDMI 1.3 o más reciente, según IEC 61937-3.

Transporte físico para dispositivos y aplicaciones profesionales

Como la interfaz AES-3 es la analógica profesional de S/PDIF, las secuencias Dolby Digital Plus pueden transmitirse a través de conexiones AES-3 con suficiente ancho de banda y/o a través de otras interfaces que encapsulen AES-3 (como el audio integrado SMPTE 259M y SMPTE 299M). Las normas adicionales promulgadas por SMPTE especifican la codificación de los transportes Dolby, incluidos Dolby Digital, Dolby Digital Plus y Dolby E (un códec exclusivo para profesionales que se utiliza en aplicaciones de audio y vídeo) en una interfaz AES. La norma SMPTE 337 especifica la señalización y el transporte de señales que no son audio PCM a través de una interfaz AES-3, y la norma SMPTE 340-2008 especifica cómo se deben transmitir Dolby Digital Plus y Dolby Digital a través de esa interfaz. La combinación de SMPTE 340-2008 y 337M permite que el flujo de bits Dolby Digital Plus se almacene y transporte dentro de flujos de trabajo de producción, contribución y distribución profesionales antes de su emisión a los consumidores.

Transmisión de consumo en sistemas de televisión digital

El Comité de Sistemas de Televisión Avanzados especifica que DD+ o Dolby Digital es el códec de audio principal para el sistema de televisión digital ATSC , y se utiliza comúnmente para otras aplicaciones de DTV (como transmisiones por cable y satélite) en países que utilizan ATSC para televisión digital.

Para su difusión (emisión) a los consumidores, el flujo de bits de Dolby Digital Plus se empaqueta en un flujo elemental MPEG y se multiplexa (con vídeo) en un flujo de transporte MPEG. En los sistemas ATSC, la especificación para transportar Dolby Digital Plus se describe en ATSC A/53 Parte 3 y Parte 6. En los sistemas DVB, la especificación para transportar Dolby Digital Plus se describe en ETSI TS 101 154 y ETSI EN 300 468.

El uso de Dolby Digital Plus en los sistemas de televisión digital, en particular en los sistemas de cable y satélite, como reemplazo de Dolby Digital es cada vez mayor. Muchas de estas aplicaciones no aprovechan su mayor cantidad de canales ni su capacidad para admitir varios programas independientes; en cambio, se utiliza como un códec de mayor eficiencia que AC-3.

HD DVD y discos Blu-ray

Tanto el estándar HD DVD, ahora extinto, como el Blu-ray Disc incluyen Dolby Digital Plus. Es un componente obligatorio del HD DVD y un componente opcional del Blu-ray. El número máximo de canales codificados discretos es el mismo para ambos formatos: 7.1. Sin embargo, el HD DVD y el Blu-ray imponen diferentes restricciones técnicas a los códecs de audio compatibles. Por lo tanto, el uso de DD+ difiere sustancialmente entre HD DVD y Blu-ray Disc.

En los HD DVD, el DD+ se designa como códec de audio obligatorio. Una película HD DVD puede utilizar DD+ como pista de audio principal (o única). Se requiere que un reproductor HD DVD admita audio DD+ decodificándolo y enviándolo a las tomas de salida del reproductor. Tal como se almacena en el disco, el flujo de bits DD+ puede transmitirse a cualquier número de canales de audio hasta el máximo permitido, a cualquier tasa de bits de hasta 3,0 Mbit/s.

En los discos Blu-ray, DD+ es un códec opcional y se utiliza como una extensión de una pista de audio AC-3 5.1 "central". El núcleo AC-3 está codificado a 640 kbit/s, lleva 5 canales primarios (y 1 LFE) y se puede reproducir de forma independiente como pista de audio de película en cualquier reproductor de discos Blu-ray. El flujo de bits de extensión DD+ se utiliza en reproductores que lo admiten, reemplazando los canales traseros en la configuración 5.1 con versiones de mayor fidelidad, además de proporcionar una posible extensión de canal a 6.1 o 7.1. A la pista de audio completa se le permite una tasa de bits combinada de 1,7 Mbit/s: 640 kbit/s para el núcleo AC-3 5.1 y 1 Mbit/s para la extensión DD+. Durante la reproducción, tanto el flujo de bits central como el de extensión contribuyen a la salida de audio final, de acuerdo con las reglas integradas en los metadatos del flujo de bits. ^[4]^{[ se necesita una mejor fuente ]}

Reproductores multimedia y downmix

Por lo general, un flujo de bits Dolby Digital Plus solo se puede transportar a través de un enlace HDMI 1.3 o superior. Los receptores más antiguos admiten versiones anteriores de HDMI o solo admiten el sistema S/PDIF para audio digital o entradas analógicas.

Para enlaces que no sean HDMI 1.3, el reproductor puede decodificar el audio y luego transmitirlo a través de una variedad de métodos diferentes.

Las versiones anteriores de HDMI, como HDMI 1.1, admiten audio PCM , donde el reproductor decodifica el audio y lo transmite sin pérdidas como PCM a través de HDMI al receptor.
Algunos receptores y reproductores admiten sonido envolvente analógico y el reproductor puede decodificar el audio y transmitirlo al receptor como audio analógico.

La mayoría de los receptores y reproductores admiten S/PDIF. Esta conexión digital de menor ancho de banda no es capaz de transmitir audio PCM sin pérdidas con más de dos canales, pero un reproductor puede transmitir una secuencia de audio compatible con S/PDIF al receptor de una de las siguientes maneras:

Los reproductores de discos Blu-ray pueden aprovechar el flujo de bits 5.1 AC-3 heredado integrado en el flujo de bits E-AC-3, transmitiendo solo el flujo de bits AC-3 sin modificaciones.
Los reproductores que admiten el estándar HD DVD pueden transcodificar el audio descodificado a otro formato. Según el método y las opciones disponibles para el reproductor, esto se puede hacer con una pérdida de calidad relativamente pequeña. El descodificador de referencia de Dolby, disponible para todos los licenciatarios, explota la herencia común entre AC-3 y E-AC-3 al realizar la operación en el dominio de la frecuencia. La recompresión híbrida evita la descompresión de extremo a extremo innecesaria y la recompresión posterior (E-AC-3 → LPCM → AC-3). Además de AC-3, algunos reproductores HD DVD transcodifican audio compatible con S/PDIF en audio DTS de 1,5 Mbit/s . Si bien S/PDIF puede transportar Dolby Digital Plus a velocidades de bits más bajas, el estándar HD DVD especifica una velocidad de bits para DD+ que es demasiado alta para que la transmita una interfaz S/PDIF.

Si el reproductor necesita decodificar el audio para un receptor que no sea HDMI 1.3, los resultados deberían ser predecibles. La especificación DD+ define explícitamente los modos y la mecánica de la mezcla descendente , por lo que cualquier campo de sonido de origen (hasta 14.1) se puede reproducir de manera predecible para cualquier entorno de escucha (hasta un solo canal).

Véase también

Audio de alta resolución DTS-HD

Referencias

^ Comité de sistemas de televisión avanzados (17 de diciembre de 2012), Estándar ATSC: compresión de audio digital (AC-3, E-AC-3) (PDF) , Washington, DC: Autor, ATSC A/52:2012
^ Estándar de compresión de audio digital (AC-3, AC-3 mejorado) (PDF) , Instituto Europeo de Normas de Telecomunicaciones, 20 de septiembre de 2017, ETSI TS 102 366 V1.4.1 (2017-09 , consultado el 21 de septiembre de 2023
^ Andersen, Robert Loring; Crockett, B.; Davidson, G.; Davis, Mark; Fielder, L.; Turner, Stephen C.; Vinton, M.; Williams, P. (1 de octubre de 2004). "Introducción a Dolby Digital Plus, una mejora del sistema de codificación Dolby Digital" (PDF) . Journal of The Audio Engineering Society . Archivado desde el original (PDF) el 19 de noviembre de 2016.
^ "avcodec/eac3: agrega compatibilidad con flujo dependiente · FFmpeg/FFmpeg@ae92970". GitHub . Consultado el 10 de junio de 2019 .