MPEG Surround ( ISO / IEC 23003-1 [1] o MPEG-D Parte 1 [2] [3] ), también conocido como codificación de audio espacial (SAC) [4] [5] [6] [7], es un formato de compresión con pérdida para sonido envolvente que proporciona un método para ampliar los servicios de audio mono o estéreo a audio multicanal de manera compatible con versiones anteriores. Las tasas de bits totales utilizadas para el núcleo (mono o estéreo) y los datos MPEG Surround suelen ser solo ligeramente superiores a las tasas de bits utilizadas para la codificación del núcleo (mono o estéreo). MPEG Surround añade un flujo de información lateral al flujo de bits del núcleo (mono o estéreo) , que contiene datos de imagen espacial. Los sistemas de reproducción estéreo heredados ignorarán esta información lateral, mientras que los reproductores compatibles con la decodificación MPEG Surround emitirán el audio multicanal reconstruido.
El Moving Picture Experts Group (MPEG) publicó una convocatoria de propuestas sobre codificación de audio espacial MPEG en marzo de 2004. El grupo decidió que la tecnología que sería el punto de partida en el proceso de estandarización sería una combinación de las propuestas de dos proponentes: Fraunhofer IIS / Agere Systems y Coding Technologies / Philips. [5] El estándar MPEG Surround fue desarrollado por el Moving Picture Experts Group ( ISO/IEC JTC 1 /SC29/WG11) y publicado como ISO/IEC 23003 en 2007. [1] Fue el primer estándar del grupo de estándares MPEG-D, formalmente conocido como ISO/IEC 23003 - Tecnologías de audio MPEG .
MPEG Surround también se definió como uno de los tipos de objetos de audio MPEG-4 en 2007. [8] También existe el tipo de objeto MPEG-4 No Delay MPEG Surround (LD MPEG Surround), que se publicó en 2010. [9] [10] La codificación de objetos de audio espacial (SAOC) se publicó como MPEG-D Parte 2 - ISO/IEC 23003–2 en 2010 y extiende el estándar MPEG Surround al reutilizar sus capacidades de representación espacial mientras conserva la compatibilidad total con los receptores existentes. El sistema MPEG SAOC permite a los usuarios del lado de la decodificación controlar de forma interactiva la representación de cada objeto de audio individual (por ejemplo, instrumentos individuales, voces, voces humanas). [2] [3] [11] [12] [13] [14] [15] También existe la codificación unificada de voz y audio (USAC) que se definirá en MPEG-D Parte 3 - ISO/IEC 23003-3 e ISO/IEC 14496-3:2009/Amd 3. [16] [17] Las herramientas de codificación paramétrica MPEG-D MPEG Surround están integradas en el códec USAC. [18]
El núcleo (mono o estéreo) se puede codificar con cualquier códec de audio ( con o sin pérdida ) . Se pueden lograr tasas de bits particularmente bajas (64-96 kbit/s para canales 5.1) cuando se utiliza HE-AAC v2 como códec principal.
La codificación MPEG Surround utiliza nuestra capacidad de percibir el sonido en 3D y captura esa percepción en un conjunto compacto de parámetros. La percepción espacial se atribuye principalmente a tres parámetros o señales que describen cómo los humanos localizan el sonido en el plano horizontal: diferencia de nivel interaural (ILD), diferencia de tiempo interaural (ITD) y coherencia interaural (IC). Estos tres conceptos se ilustran en la siguiente imagen. Las formas de onda directas, o de primera llegada, de la fuente interaural golpean el oído izquierdo a la vez, mientras que el sonido directo recibido por el oído derecho se difracta alrededor de la cabeza, con retraso de tiempo y atenuación de nivel asociados. Estos dos efectos dan como resultado que la ITD y la ILD se asocien con la fuente principal. Por último, en un entorno reverberante, el sonido reflejado de la fuente, o el sonido de una fuente difusa, o el sonido no correlacionado puede golpear ambos oídos, todos ellos relacionados con la IC.
MPEG Surround utiliza diferencias entre canales en cuanto a nivel, fase y coherencia equivalentes a los parámetros ILD, ITD e IC. La imagen espacial se captura mediante una señal de audio multicanal relativa a una señal de mezcla descendente transmitida. Estos parámetros se codifican de forma muy compacta para decodificar los parámetros y la señal transmitida y sintetizar una representación multicanal de alta calidad.
El codificador MPEG Surround recibe una señal de audio multicanal de x1 a xN, donde el número de canales de entrada es N. El aspecto más importante del proceso de codificación es que una señal de mezcla descendente, xt1 y xt2, que normalmente es estéreo, se deriva de la señal de entrada multicanal, y es esta señal de mezcla descendente la que se comprime para la transmisión por el canal en lugar de la señal multicanal. El codificador puede aprovechar el proceso de mezcla descendente para obtener más ventajas. No solo crea un equivalente fiel de la señal multicanal en la mezcla descendente mono o estéreo, sino que también crea la mejor decodificación multicanal posible basada en la mezcla descendente y las señales espaciales codificadas. Alternativamente, la mezcla descendente se puede suministrar externamente (mezcla descendente artística antes del bloque Diagrama). El algoritmo de compresión utilizado para los canales transmitidos puede ignorar el proceso de codificación MPEG Surround (codificador de audio y decodificador de audio antes del bloque Diagrama). Podría ser cualquier tipo de algoritmo de compresión de alto rendimiento, como MPEG-1 Layer III, MPEG-4 AAC o MPEG-4 High Efficiency AAC, o incluso podría ser PCM.
Las señales espaciales se generan y recuperan en dos tipos de módulos de filtro. El OTT inverso (uno a dos) genera un flujo mezclado, una diferencia de nivel, un valor de coherencia y una señal residual opcional a partir de un par de señales. El elemento TTT inverso (dos a tres) genera dos flujos mezclados, dos diferencias de nivel, un valor de coherencia y una señal residual opcional. Tanto en la dirección directa (decodificación) como en la inversa (codificación), la disposición de estos filtros en una configuración de árbol permite una mezcla y recuperación arbitrarias. [19]
La técnica MPEG Surround permite la compatibilidad con los decodificadores MPEG estéreo actuales y futuros, ya que la mezcla descendente transmitida (por ejemplo, estéreo) aparece ante los decodificadores MPEG estéreo como una versión estéreo normal de la señal multicanal. La compatibilidad con los decodificadores estéreo es deseable, ya que la presentación estéreo seguirá siendo omnipresente debido a la cantidad de aplicaciones en las que la escucha se realiza principalmente a través de auriculares, como los reproductores de música portátiles.
MPEG Surround también admite un modo en el que la mezcla descendente es compatible con los decodificadores de sonido envolvente de matriz más populares, como Dolby Pro-Logic . [19]
Debido al ancho de banda relativamente pequeño del canal, el costo relativamente alto de los equipos de transmisión y las licencias de transmisión y el deseo de maximizar las opciones de los usuarios proporcionando muchos programas, la mayoría de los sistemas de transmisión digital existentes o planificados no pueden proporcionar sonido multicanal a los usuarios.
DRM+ fue diseñado [20] para ser totalmente capaz de transmitir MPEG Surround y dicha transmisión también se demostró con éxito. [21]
La compatibilidad con versiones anteriores de MPEG Surround y su costo operativo relativamente bajo brindan una forma de agregar sonido multicanal a DAB sin reducir severamente la calidad del audio ni afectar otros servicios.
Actualmente, la mayoría de las emisiones de televisión digital utilizan codificación de audio estéreo. Se podría utilizar MPEG Surround para ampliar estos servicios establecidos al sonido envolvente, como ocurre con el DAB.
Actualmente, existen numerosos servicios comerciales de descarga de música que funcionan con un éxito comercial considerable. Dichos servicios podrían ampliarse sin problemas para ofrecer presentaciones multicanal sin dejar de ser compatibles con reproductores estéreo: en los ordenadores con sistemas de reproducción de 5.1 canales, los archivos de sonido comprimidos se presentan en sonido envolvente, mientras que en los reproductores portátiles los mismos archivos se reproducen en estéreo.
Muchas radios de Internet funcionan con un ancho de banda de transmisión muy limitado, de modo que solo pueden ofrecer contenido mono o estéreo. La tecnología de codificación MPEG Surround podría extender esto a un servicio multicanal sin salirse del rango de velocidad de bits permitido. Dado que la eficiencia es de suma importancia en esta aplicación, la compresión de la señal de audio transmitida es vital. Utilizando la reciente tecnología de compresión MPEG (codificación MPEG-4 High Efficiency Profile), se han demostrado sistemas MPEG Surround completos con velocidades de bits tan bajas como 48 kbit/s.
{{cite web}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{citation}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{cite web}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )