La replicación de banda espectral ( SBR ) es una tecnología para mejorar los códecs de audio o voz , especialmente a velocidades de bits bajas y se basa en la redundancia armónica en el dominio de la frecuencia.
Se puede combinar con cualquier códec de compresión de audio : el propio códec transmite las frecuencias bajas y medias del espectro, mientras que SBR replica el contenido de frecuencias más altas transponiendo armónicos de las frecuencias bajas y medias en el decodificador. [1] Alguna información de orientación para la reconstrucción de la envolvente espectral de alta frecuencia se transmite como información secundaria.
Cuando es necesario, también reconstruye o mezcla de forma adaptativa información similar al ruido en bandas de frecuencia seleccionadas para replicar fielmente señales que originalmente no contenían componentes tonales o que estos contenían pocos.
La idea de SBR se basa en el principio de que la parte psicoacústica del cerebro humano tiende a analizar frecuencias más altas con menor precisión; por lo tanto, los fenómenos armónicos asociados con el proceso de replicación de la banda espectral solo necesitan ser precisos en un sentido perceptivo y no técnica o matemáticamente exactos.
Una empresa sueca, Coding Technologies (adquirida por Dolby en 2007), desarrolló y fue pionera en el uso de SBR en su códec derivado de MPEG-2 AAC llamado aacPlus, que apareció por primera vez en 2001. Este códec se presentó a MPEG y formó la base de MPEG-4 High-Efficiency AAC (HE-AAC), estandarizado en 2003. [2] Lars Liljeryd , Kristofer Kjörling y Martin Dietz recibieron el premio IEEE Masaru Ibuka Consumer Electronics Award en 2013 por su trabajo en el desarrollo y comercialización de HE-AAC. [3] [4] El método SBR de Coding Technologies también se ha utilizado con WMA 10 Professional para crear WMA 10 Pro LBR, y con MP3 para crear mp3PRO .
HE-AAC que utiliza SBR se utiliza en sistemas de transmisión como DAB+ , Digital Radio Mondiale (incluido xHE-AAC ), HD Radio y XM Satellite Radio . [5]
Si el reproductor no es capaz de utilizar la información secundaria que se ha transmitido junto con los datos de audio comprimidos "normales", es posible que aún pueda reproducir los datos de "banda base" (por ejemplo, muestreados a 22,05 kHz en lugar de 44,1 kHz) como de costumbre, lo que da como resultado un sonido opaco (ya que faltan las frecuencias altas), pero en general aceptable. Este es el caso, por ejemplo, si se reproduce un archivo mp3PRO con un software MP3 que no puede utilizar la información SBR.
La parte CELT de Opus realiza un plegado espectral en el nivel de bin MDCT, lo que la convierte en una técnica mucho menos avanzada pero con menor retardo en comparación con SBR. [6]
Dolby Digital Plus (E-AC3) realiza la extensión espectral (SPX). La SPX reduce los componentes de alta frecuencia a metadatos y es similar al cálculo de acoplamiento multicanal de E-AC3. [7] Dolby AC-4 amplía la técnica a la extensión espectral avanzada (A-SPX), con la opción de intercalar con datos regulares, no extendidos, en el dominio del tiempo o la frecuencia. Como resultado, la SPX se puede desactivar de forma selectiva para las partes difíciles. [8]
La codificación de SBR produce una señal de audio con una resolución reducida (normalmente 2:1) e información de guía. En una publicación anterior, se describe que los datos de guía se producen mediante un análisis de filtro de espejo en cuadratura (QMF) y un estimador de envolvente . [9]
La decodificación de SBR requiere transponer armónicos, un caso de estiramiento del tiempo de audio y escala de tono . [10]