Codificación conjunta

En ingeniería de audio , la codificación conjunta es la unión de varios canales de información similar durante la codificación para obtener una mayor calidad, un tamaño de archivo más pequeño o ambos.

Conjunto estéreo

El término "estéreo conjunto" ha ganado popularidad a medida que Internet ha permitido la transferencia de audio de calidad aceptable y con una tasa de bits relativamente baja con velocidades de acceso a Internet modestas. El término "estéreo conjunto" hace referencia a cualquier cantidad de técnicas de codificación utilizadas para este propósito. Aquí se describen dos formas, ambas implementadas de diversas maneras con diferentes códecs , como MP3 , AAC y Ogg Vorbis .

Codificación estéreo de intensidad

Esta forma de estéreo conjunto utiliza una técnica conocida como codificación de frecuencia conjunta , que funciona según el principio de localización del sonido . El oído humano es predominantemente menos agudo para percibir la dirección de ciertas frecuencias de audio. Al explotar esta característica, la codificación estéreo de intensidad puede reducir la velocidad de datos de una transmisión de audio con poco o ningún cambio percibido en la calidad aparente.

Más específicamente, el predominio de las diferencias de tiempo interaural (ITD) para la localización del sonido por parte de los humanos solo está presente para frecuencias más bajas. Eso deja a las diferencias de amplitud interaural (IAD) como el indicador de ubicación dominante para frecuencias más altas (el límite de corte es ~2 kHz). La idea de la codificación estéreo de intensidad es fusionar el espectro más bajo en un solo canal (reduciendo así las diferencias generales entre canales) y transmitir un poco de información secundaria sobre cómo desplazar ciertas regiones de frecuencia para recuperar las señales IAD . Sin embargo, la ITD no se pierde por completo en este esquema: la forma de la oreja hace que la ITD se pueda recuperar de la IAD si el sonido proviene del espacio libre, por ejemplo, reproducido a través de altavoces. ^[1]

Este tipo de codificación no reconstruye perfectamente el audio original debido a la pérdida de información que resulta en la simplificación de la imagen estéreo y puede producir artefactos de compresión perceptibles . Sin embargo, para velocidades de bits muy bajas, este tipo de codificación generalmente produce una ganancia en la calidad percibida del audio. Es compatible con muchos formatos de compresión de audio (incluidos MP3 , AAC , Vorbis y Opus ), pero no siempre con todos los codificadores.

Codificación estéreo M/S

La codificación estéreo M/S transforma los canales izquierdo y derecho en un canal medio y un canal lateral. El canal medio es la suma de los canales izquierdo y derecho, o . El canal lateral es la diferencia de los canales izquierdo y derecho, o . A diferencia de la codificación estéreo de intensidad, la codificación M/S es un caso especial de codificación de transformación y conserva el audio perfectamente sin introducir artefactos. Los códecs sin pérdida como FLAC o Monkey's Audio utilizan la codificación estéreo M/S debido a esta característica. $M=L+R$ $Estilo de visualización S=LR$

Para reconstruir la señal original, se suman o restan los canales . ${\estilo de texto L={\frac {M+S}{2}}}$ ${\textstyle R={\frac {MS}{2}}}$

Esta forma de codificación también se conoce a veces como estéreo matricial ^[a] y se utiliza en muchas formas diferentes de equipos de procesamiento y grabación de audio. No se limita a los sistemas digitales e incluso se puede crear con transformadores de audio pasivos o amplificadores analógicos . Un ejemplo del uso del estéreo M/S es en la transmisión estéreo FM , donde modula la onda portadora y modula una subportadora . Esto permite la compatibilidad con equipos mono, que solo requerirán el canal medio. ^[2] Otro ejemplo de estéreo M/S es el disco estereofónico de microsurco . Los movimientos laterales de una aguja representan la suma de dos canales y el movimiento vertical representa la diferencia entre los canales; dos bobinas perpendiculares decodifican mecánicamente los canales. ^[3] ${\estilo de visualización L+R}$ ${\estilo de visualización LR}$

La técnica M/S también es una técnica común para la producción de grabaciones estéreo. Véase Práctica de micrófono § Técnica M/S .

La codificación M/S no requiere estrictamente que los canales izquierdo y derecho utilicen el mismo peso. En Opus CELT, la codificación M/S se combina con un parámetro de ángulo, de modo que se pueden utilizar diferentes pesos para maximizar la descorrelación. ^[4]^{: 4.5.1}

Una forma similar de unir múltiples canales se observa en la implementación ambisónica de Opus 1.3. Se puede utilizar una matriz para mezclar los canales armónicos esféricos, lo que reduce la redundancia. ^[5]

Estéreo paramétrico

El estéreo paramétrico es similar al estéreo de intensidad, excepto que se utilizan parámetros que van más allá de la diferencia de intensidad. En la versión MPEG-4 (HE-AAC), se utilizan la diferencia de intensidad y la diferencia de retardo de tiempo, lo que permite utilizar todas las bandas sin perjudicar la localización. HE-AAC también añade información de "correlación", que replica el ambiente sintetizando alguna diferencia entre los canales. ^[6]

La codificación de señales binaurales (BCC) es la técnica de PS HE-AAC extendida para muchos canales de entrada, todos mezclados a uno. Se utilizaron los mismos parámetros ILD, ITD e IC. MPEG Surround es similar a BCC, pero permite mezclar a múltiples canales y no parece utilizar ITD. ^[7]

Codificación de frecuencia conjunta

La codificación de frecuencia conjunta es una técnica de codificación utilizada en la compresión de datos de audio para reducir la velocidad de datos .

La idea es fusionar un rango de frecuencias determinado de múltiples canales de sonido para que la codificación resultante preserve la información de sonido de ese rango no como un conjunto de canales separados, sino como un flujo de datos homogéneo. Esto destruirá la separación de canales original de forma permanente, ya que la información no se puede reconstruir con precisión, pero reducirá en gran medida la cantidad de espacio de almacenamiento necesario. Solo algunas formas de estéreo conjunto utilizan la técnica de codificación de frecuencia conjunta, como la codificación estéreo de intensidad.

Implementaciones

Cuando se utiliza dentro del proceso de compresión de MP3, el estéreo conjunto normalmente emplea múltiples técnicas y puede cambiar entre ellas para cada cuadro MPEG. Normalmente, el modo estéreo conjunto de un codificador moderno utiliza estéreo M/S para algunos cuadros y estéreo L/R para otros, el método que produzca el mejor resultado. Los codificadores utilizan diferentes algoritmos para determinar cuándo cambiar y cuánto espacio asignar a cada canal; la calidad puede verse afectada si el cambio es demasiado frecuente o si el canal lateral no obtiene suficientes bits. Con algún software de codificación, es posible forzar el uso de estéreo M/S para todos los cuadros, imitando el modo estéreo conjunto de algunos codificadores tempranos como Xing . Dentro del codificador LAME , esto se conoce como estéreo conjunto forzado. ^[8]

Al igual que con MP3, los archivos estéreo Ogg Vorbis pueden emplear estéreo L/R o estéreo conjunto. Cuando se utiliza estéreo conjunto, se pueden utilizar tanto el método estéreo M/S como el estéreo de intensidad. A diferencia de MP3, donde el estéreo M/S (cuando se utiliza) se aplica antes de la cuantificación, un codificador Ogg Vorbis aplica estéreo M/S a las muestras en el dominio de frecuencia después de la cuantificación, lo que hace que la aplicación del estéreo M/S sea un paso sin pérdida. Después de este paso, cualquier área de frecuencia se puede convertir a estéreo de intensidad eliminando la parte correspondiente del canal lateral de la señal M/S. La función de piso de Ogg Vorbis se encargará de la panorámica izquierda-derecha requerida. ^{[ cita requerida ] De manera similar,} Opus tiene soporte para las tres opciones en la capa CELT; la capa SILK es solo M/S. ^[9]

Notas

^ Se llama así porque la suma y la resta se pueden representar mediante una matriz .

Referencias

^ F. Baumgarte y C. Faller, “Diseño y evaluación de la codificación de señales binaurales”, en AES 113th Conv., Los Ángeles, CA, octubre de 2002.
^ "Transmisión estereofónica: detalles técnicos del sistema de tono piloto", Hoja informativa 1604(4) , Servicio de información de ingeniería de la BBC , junio de 1970
^ "Grabación de discos estéreo". Archivado desde el original el 25 de septiembre de 2006. Consultado el 4 de octubre de 2006 .
^ Jean-Marc Valin; Gregory Maxwell; Timothy B. Terriberry; Koen Vos (17–20 de octubre de 2013). "Codificación de música de alta calidad y bajo retardo en el códec Opus" (PDF) . www.xiph.org . Nueva York, NY: Xiph.Org Foundation. p. 2. Archivado desde el original (PDF) el 14 de julio de 2018 . Consultado el 19 de agosto de 2014 . El tiempo de anticipación de CELT es de 2,5 ms, mientras que el de SILK es de 5 ms, más 1,5 ms para el remuestreo (incluido el remuestreo del codificador y del decodificador). Por este motivo, la ruta CELT en el codificador agrega un retraso de 4 ms. Sin embargo, una aplicación puede restringir el codificador a CELT y omitir ese retraso. Esto reduce el tiempo de anticipación total a 2,5 ms.
^ "Opus 1.3 Released". jmvalin.ca . Para todos los ambisónicos de orden superior, el mapeo de canal 3 proporciona una representación más eficiente al transformar primero las señales ambisónicas con una matriz de mezcla designada antes de la codificación. Esta versión 1.3 proporciona matrices para primer, segundo y tercer orden.
^ Purnhagen, Heiko (5–8 de octubre de 2004). "CODIFICACIÓN ESTÉREO PARAMÉTRICA DE BAJA COMPLEJIDAD EN MPEG-4" (PDF) . 7.ª Conferencia internacional sobre efectos de audio digital : 163–168.
^ HAN, Chih-Kang. Aceleración e implementación del códec MPEG Surround en la plataforma TI DSP (PDF) (MSc).
^ "Conmutadores detallados de la línea de comandos". Documentación LAME . Consultado el 13 de diciembre de 2013 . JOINT STEREO [...] significa que el codificador puede usar (en una base de cuadro por cuadro) estéreo L/R o estéreo medio/lateral. En estéreo medio/lateral, [...] se asignan más bits al canal medio que al canal lateral. Cuando no hay demasiada separación estéreo, esto aumenta efectivamente el ancho de banda, por lo que se obtiene una mayor calidad con la misma cantidad de bits. El uso inadecuado del estéreo medio/lateral puede dar como resultado artefactos de compresión audibles. El cambio excesivo entre estéreo medio/lateral y estéreo normal también puede sonar mal. Para determinar cuándo cambiar a estéreo medio/lateral, LAME utiliza un algoritmo mucho más sofisticado que el descrito en la documentación ISO. FORCED MID/SIDE STEREO obliga a que todos los cuadros se codifiquen con estéreo medio/lateral. Solo debe usarse si está seguro de que cada cuadro del archivo de entrada tiene muy poca separación estéreo.
^ RFC 6716, §§ 4.2.1, 4.3

Enlaces externos

Jürgen Herre, Fraunhofer IIS. De la codificación de audio espacial a la estéreo conjunta: avances recientes y estandarización. Octubre de 2004, artículo 157, DAFx'04 7.ª Conferencia internacional sobre efectos de audio digital.