Codificación conjunta

En ingeniería de audio , la codificación conjunta se refiere a la unión de varios canales de información similar durante la codificación para obtener una mayor calidad, un tamaño de archivo más pequeño o ambas cosas.

Estéreo conjunto

El término estéreo conjunto se ha vuelto prominente a medida que Internet ha permitido la transferencia de audio de calidad aceptable y con una velocidad de bits relativamente baja con velocidades de acceso a Internet modestas. Estéreo conjunto se refiere a cualquier número de técnicas de codificación utilizadas para este propósito. Aquí se describen dos formas, las cuales se implementan de varias maneras con diferentes códecs , como MP3 , AAC y Ogg Vorbis .

Codificación estéreo de intensidad

Esta forma de estéreo conjunto utiliza una técnica conocida como codificación de frecuencia conjunta , que funciona según el principio de localización del sonido . La audición humana es predominantemente menos aguda a la hora de percibir la dirección de determinadas frecuencias de audio. Al explotar esta característica, la codificación estéreo de intensidad puede reducir la velocidad de datos de un flujo de audio con poco o ningún cambio percibido en la calidad aparente.

Más específicamente, el predominio de las diferencias de tiempo interaurales (ITD) para la localización del sonido por parte de los humanos sólo está presente en las frecuencias más bajas. Eso deja las diferencias de amplitud interaural (IAD) como el indicador de ubicación dominante para las frecuencias más altas (el límite es ~2 kHz). La idea de la codificación estéreo de intensidad es fusionar el espectro inferior en un solo canal (reduciendo así las diferencias generales entre canales) y transmitir un poco de información adicional sobre cómo panoramizar ciertas regiones de frecuencia para recuperar las señales IAD . Sin embargo, el ITD no se pierde por completo en este esquema: la forma del oído hace que el ITD pueda recuperarse del IAD si el sonido proviene del espacio libre, por ejemplo reproducido a través de altavoces. ^[1]

Este tipo de codificación no reconstruye perfectamente el audio original debido a la pérdida de información que resulta en la simplificación de la imagen estéreo y puede producir artefactos de compresión perceptibles . Sin embargo, para velocidades de bits muy bajas, este tipo de codificación normalmente produce una ganancia en la calidad percibida del audio. Es compatible con muchos formatos de compresión de audio (incluidos MP3 , AAC , Vorbis y Opus ), pero no siempre con todos los codificadores.

Codificación estéreo M/S

La codificación estéreo M/S transforma los canales izquierdo y derecho en un canal medio y un canal lateral. El canal medio es la suma de los canales izquierdo y derecho, o . El canal lateral es la diferencia entre los canales izquierdo y derecho, o . A diferencia de la codificación estéreo de intensidad, la codificación M/S es un caso especial de codificación por transformación y retiene el audio perfectamente sin introducir artefactos. Los códecs sin pérdidas como FLAC o Monkey's Audio utilizan codificación estéreo M/S debido a esta característica. $M=L+R$ $S=LR$

Para reconstruir la señal original, los canales se suman o restan . ${\estilo de texto L={\frac {M+S}{2}}}$ ${\textstyle R={\frac {MS}{2}}}$

Esta forma de codificación también se conoce a veces como matriz estéreo ^[a] y se utiliza en muchas formas diferentes de equipos de grabación y procesamiento de audio. No se limita a sistemas digitales e incluso puede crearse con transformadores de audio pasivos o amplificadores analógicos . Un ejemplo del uso de M/S estéreo es en la transmisión estéreo de FM , donde modula la onda portadora y modula una subportadora . Esto permite la compatibilidad con equipos mono, que sólo requerirán el canal medio. ^[2] Otro ejemplo de estéreo M/S es el disco estereofónico de microsurco . Los movimientos laterales de un lápiz representan la suma de dos canales y el movimiento vertical representa la diferencia entre los canales; Dos bobinas perpendiculares decodifican mecánicamente los canales. ^[3] $L+R$ $LR$

M/S también es una técnica común para la producción de grabaciones estéreo. Ver Práctica de micrófono § Técnica M/S .

La codificación M/S no requiere estrictamente que los canales izquierdo y derecho utilicen el mismo peso. En Opus CELT, la codificación M/S se combina con un parámetro de ángulo, de modo que se pueden usar diferentes pesos para maximizar la descorrelación. ^[4]^{: 4.5.1}

Una forma similar de unir múltiples canales se ve en la implementación ambisónica de Opus 1.3. Se puede utilizar una matriz para mezclar los canales armónicos esféricos, reduciendo la redundancia. ^[5]

estéreo paramétrico

El estéreo paramétrico es similar al estéreo de intensidad, excepto que se utilizan parámetros más allá de la diferencia de intensidad. En la versión MPEG-4 (HE-AAC), se utilizan la diferencia de intensidad y la diferencia de retardo de tiempo, lo que permite utilizar todas las bandas sin perjudicar la localización. HE-AAC también agrega información de "correlación", que replica el ambiente sintetizando alguna diferencia entre los canales. ^[6]

La codificación de señal binaural (BCC) es la técnica HE-AAC PS extendida a muchos canales de entrada, todos mezclados en uno. Se utilizaron los mismos parámetros ILD, ITD e IC. MPEG Surround es similar a BCC, pero permite la mezcla a múltiples canales y no parece utilizar ITD. ^[7]

Codificación de frecuencia conjunta

La codificación de frecuencia conjunta es una técnica de codificación utilizada en la compresión de datos de audio para reducir la velocidad de datos .

La idea es fusionar un rango de frecuencia determinado de múltiples canales de sonido para que la codificación resultante conserve la información de sonido de ese rango no como un conjunto de canales separados sino como un flujo de datos homogéneo. Esto destruirá permanentemente la separación de canales original, ya que la información no se puede reconstruir con precisión, pero reducirá en gran medida la cantidad de espacio de almacenamiento requerido. Sólo algunas formas de estéreo conjunto utilizan la técnica de codificación de frecuencia conjunta, como la codificación estéreo de intensidad.

Implementaciones

Cuando se utiliza dentro del proceso de compresión de MP3, el estéreo conjunto normalmente emplea múltiples técnicas y puede alternar entre ellas para cada cuadro MPEG. Normalmente, el modo estéreo conjunto de un codificador moderno utiliza estéreo M/S para algunos fotogramas y estéreo L/R para otros, cualquiera que sea el método que produzca el mejor resultado. Los codificadores utilizan diferentes algoritmos para determinar cuándo cambiar y cuánto espacio asignar a cada canal; la calidad puede verse afectada si la conmutación es demasiado frecuente o si el canal lateral no recibe suficientes bits. Con algún software de codificación, es posible forzar el uso de M/S estéreo para todos los fotogramas, imitando el modo estéreo conjunto de algunos de los primeros codificadores como Xing . Dentro del codificador LAME , esto se conoce como estéreo de unión forzada. ^[8]

Al igual que con MP3, los archivos estéreo Ogg Vorbis pueden emplear estéreo L/R o estéreo conjunto. Cuando se utiliza estéreo conjunto, se pueden utilizar los métodos estéreo M/S y estéreo de intensidad. A diferencia de MP3, donde se aplica M/S estéreo (cuando se usa) antes de la cuantización, un codificador Ogg Vorbis aplica M/S estéreo a muestras en el dominio de la frecuencia después de la cuantización, lo que hace que la aplicación de M/S estéreo sea un paso sin pérdidas. Después de este paso, cualquier área de frecuencia se puede convertir a estéreo de intensidad eliminando la parte correspondiente del canal lateral de la señal M/S. La función de piso de Ogg Vorbis se encargará de la panorámica izquierda-derecha requerida. ^{[ cita necesaria ]} Opus de manera similar es compatible con las tres opciones en la capa CELT; la capa SILK es solo M/S. ^[9]

Notas

^ Se llama así porque la suma y la resta se pueden representar mediante una matriz .

Referencias

^ F. Baumgarte y C. Faller, “Diseño y evaluación de codificación de señales binaurales”, en AES 113th Conv., Los Ángeles, CA, octubre de 2002.
^ "Transmisión estereofónica: detalles técnicos del sistema de tono piloto", hoja informativa 1604 (4) , Servicio de información de ingeniería de la BBC , junio de 1970
^ "Grabación de disco estéreo". Archivado desde el original el 25 de septiembre de 2006 . Consultado el 4 de octubre de 2006 .
^ Jean-Marc Valin; Gregorio Maxwell; Timothy B. Terriberry; Koen Vos (17 al 20 de octubre de 2013). "Codificación de música de alta calidad y bajo retardo en el códec Opus" (PDF) . www.xiph.org . Nueva York, NY: Fundación Xiph.Org. pag. 2. Archivado desde el original (PDF) el 14 de julio de 2018 . Consultado el 19 de agosto de 2014 . La anticipación de CELT es de 2,5 ms, mientras que la anticipación de SILK es de 5 ms, más 1,5 ms para el remuestreo (incluido el remuestreo del codificador y del decodificador). Por este motivo, la ruta CELT en el codificador añade un retraso de 4 ms. Sin embargo, una aplicación puede restringir el codificador a CELT y omitir ese retraso. Esto reduce la anticipación total a 2,5 ms.
^ "Lanzamiento de Opus 1.3". jmvalin.ca . Para todos los ambisónicos de orden superior, el mapeo de canales 3 proporciona una representación más eficiente al transformar primero las señales ambisónicas con una matriz de mezcla designada antes de codificar. Esta versión 1.3 proporciona matrices de primer, segundo y tercer orden.
^ Purnhagen, Heiko (5 al 8 de octubre de 2004). «CODIFICACIÓN ESTÉREO PARAMÉTRICA DE BAJA COMPLEJIDAD EN MPEG-4» (PDF) . Séptima Conferencia Internacional sobre Efectos de Audio Digital : 163–168.
^ HAN, Chih-Kang. Aceleración e implementación de códec envolvente MPEG en la plataforma TI DSP (PDF) (Maestría).
^ "Cambios de línea de comando detallados". Documentación LAME . Consultado el 13 de diciembre de 2013 . JOINT STEREO [...] significa que el codificador puede utilizar (cuadro por cuadro) estéreo L/R o estéreo medio/lateral. En estéreo medio/lateral, se asignan más bits al canal medio que al canal lateral. Cuando no hay demasiada separación estéreo, esto aumenta efectivamente el ancho de banda, por lo que se obtiene una mayor calidad con la misma cantidad de bits. El uso inadecuado del estéreo medio/lateral puede provocar artefactos de compresión audibles. Cambiar demasiado entre medio/lateral y estéreo normal también puede sonar mal. Para determinar cuándo cambiar a estéreo medio/lateral, LAME utiliza un algoritmo mucho más sofisticado que el descrito en la documentación ISO. FORCED MID/SIDE STEREO fuerza que todos los fotogramas se codifiquen con estéreo medio/lateral. Sólo debe usarse si está seguro de que cada cuadro del archivo de entrada tiene muy poca separación estéreo.
^ RFC 6716, §§ 4.2.1, 4.3

enlaces externos

Jürgen Herre, Fraunhofer IIS. De la codificación de audio estéreo conjunta a la codificación de audio espacial: progreso y estandarización recientes. Octubre de 2004, documento 157, DAFx'04 7ª Conferencia Internacional de Efectos de Audio Digital.