Un formato de codificación de audio [1] (o, a veces, formato de compresión de audio ) es un formato de representación de contenido para el almacenamiento o la transmisión de audio digital (como en televisión digital , radio digital y en archivos de audio y video). Los ejemplos de formatos de codificación de audio incluyen MP3 , AAC , Vorbis , FLAC y Opus . Una implementación específica de software o hardware capaz de comprimir y descomprimir audio hacia/desde un formato de codificación de audio específico se denomina códec de audio ; un ejemplo de códec de audio es LAME , que es uno de varios códecs diferentes que implementan la codificación y decodificación de audio en el formato de codificación de audio MP3 en software.
Algunos formatos de codificación de audio se documentan mediante un documento de especificaciones técnicas detallado, conocido como especificación de codificación de audio . Algunas de estas especificaciones son redactadas y aprobadas por organizaciones de estandarización como estándares técnicos , por lo que se conocen como estándares de codificación de audio . El término "estándar" también se utiliza a veces para estándares de facto, así como para estándares formales.
El contenido de audio codificado en un formato de codificación de audio particular normalmente se encapsula dentro de un formato contenedor . Como tal, el usuario normalmente no tiene un archivo AAC sin procesar , sino que tiene un archivo de audio .m4a , que es un contenedor MPEG-4 Parte 14 que contiene audio codificado en AAC. El contenedor también contiene metadatos como título y otras etiquetas, y quizás un índice para una búsqueda rápida. [2] Una excepción notable son los archivos MP3 , que son codificación de audio sin procesar sin un formato contenedor. Los estándares de facto para agregar etiquetas de metadatos como título y artista a MP3, como ID3 , son hacks que funcionan agregando las etiquetas al MP3 y luego confiando en que el reproductor de MP3 reconozca el fragmento como codificación de audio malformada y, por lo tanto, lo omita. En los archivos de video con audio, el contenido de audio codificado se incluye con el video (en un formato de codificación de video ) dentro de un formato contenedor multimedia .
Un formato de codificación de audio no dicta todos los algoritmos que utiliza un códec que implementa el formato. Una parte importante de cómo funciona la compresión de audio con pérdida es la eliminación de datos de formas que los humanos no pueden oír, según un modelo psicoacústico ; el implementador de un codificador tiene cierta libertad para elegir qué datos eliminar (según su modelo psicoacústico).
Un formato de codificación de audio sin pérdida reduce la cantidad total de datos necesarios para representar un sonido, pero se puede decodificar a su forma original, sin comprimir. Un formato de codificación de audio con pérdida reduce además la resolución de bits del sonido, además de la compresión, lo que da como resultado muchos menos datos a costa de perder información irremediablemente.
El audio transmitido (transmitido por streaming) se comprime con mayor frecuencia mediante códecs de audio con pérdida, ya que un tamaño más pequeño resulta mucho más conveniente para la distribución. Los formatos de codificación de audio más utilizados son MP3 y Advanced Audio Coding (AAC), ambos formatos con pérdida basados en la transformada de coseno discreta modificada (MDCT) y algoritmos de codificación perceptual .
Los formatos de codificación de audio sin pérdida, como FLAC y Apple Lossless , a veces están disponibles, aunque a costa de archivos más grandes.
A veces también se utilizan formatos de audio sin comprimir , como la modulación por código de pulsos (PCM o .wav). PCM era el formato estándar para el audio digital en disco compacto (CDDA).
En 1950, Bell Labs presentó la patente de modulación de pulsos codificados diferenciales (DPCM). [3] La DPCM adaptativa (ADPCM) fue introducida por P. Cummiskey, Nikil S. Jayant y James L. Flanagan en Bell Labs en 1973. [4] [5]
La codificación perceptiva se utilizó por primera vez para la compresión de codificación de voz , con codificación predictiva lineal (LPC). [6] Los conceptos iniciales para LPC se remontan al trabajo de Fumitada Itakura ( Universidad de Nagoya ) y Shuzo Saito ( Nippon Telegraph and Telephone ) en 1966. [7] Durante la década de 1970, Bishnu S. Atal y Manfred R. Schroeder en Bell Labs desarrollaron una forma de LPC llamada codificación predictiva adaptativa (APC), un algoritmo de codificación perceptiva que explotaba las propiedades de enmascaramiento del oído humano, seguido a principios de la década de 1980 con el algoritmo de predicción lineal excitada por código (CELP) que logró una relación de compresión significativa para su época. [6] La codificación perceptiva es utilizada por formatos de compresión de audio modernos como MP3 [6] y AAC .
La transformada discreta del coseno (DCT), desarrollada por Nasir Ahmed , T. Natarajan y KR Rao en 1974, [8] proporcionó la base para la transformada discreta del coseno modificada (MDCT) utilizada por los formatos de compresión de audio modernos como MP3 [9] y AAC. La MDCT fue propuesta por JP Princen, AW Johnson y AB Bradley en 1987, [10] siguiendo el trabajo anterior de Princen y Bradley en 1986. [11] La MDCT es utilizada por formatos de compresión de audio modernos como Dolby Digital , [12] [13] MP3 , [9] y Advanced Audio Coding (AAC). [14]