Un formato de codificación de audio [1] (o, a veces, un formato de compresión de audio ) es un formato de representación de contenido para el almacenamiento o transmisión de audio digital (como en la televisión digital , la radio digital y en archivos de audio y video). Ejemplos de formatos de codificación de audio incluyen MP3 , AAC , Vorbis , FLAC y Opus . Una implementación de software o hardware específica capaz de comprimir y descomprimir audio hacia/desde un formato de codificación de audio específico se denomina códec de audio ; un ejemplo de códec de audio es LAME , que es uno de varios códecs diferentes que implementan la codificación y decodificación de audio en el formato de codificación de audio MP3 en el software.
Algunos formatos de codificación de audio están documentados mediante un documento de especificaciones técnicas detalladas conocido como especificación de codificación de audio . Algunas de estas especificaciones están escritas y aprobadas por organizaciones de estandarización como estándares técnicos y, por lo tanto, se las conoce como estándar de codificación de audio . El término "norma" también se utiliza a veces para las normas de facto y las normas formales.
El contenido de audio codificado en un formato de codificación de audio particular normalmente se encapsula dentro de un formato contenedor . Como tal, el usuario normalmente no tiene un archivo AAC sin formato , sino que tiene un archivo de audio .m4a , que es un contenedor MPEG-4 Parte 14 que contiene audio codificado en AAC. El contenedor también contiene metadatos como título y otras etiquetas, y quizás un índice para una búsqueda rápida. [2] Una excepción notable son los archivos MP3 , que son codificación de audio sin formato sin formato contenedor. Los estándares de facto para agregar etiquetas de metadatos como título y artista a MP3, como ID3 , son trucos que funcionan agregando las etiquetas al MP3 y luego confiando en que el reproductor de MP3 reconozca el fragmento como una codificación de audio con formato incorrecto y, por lo tanto, lo omita. . En los archivos de vídeo con audio, el contenido de audio codificado se incluye con el vídeo (en un formato de codificación de vídeo ) dentro de un formato contenedor multimedia .
Un formato de codificación de audio no dicta todos los algoritmos utilizados por un códec que implementa el formato. Una parte importante de cómo funciona la compresión de audio con pérdida es eliminar datos de maneras que los humanos no pueden oír, según un modelo psicoacústico ; el implementador de un codificador tiene cierta libertad de elección sobre qué datos eliminar (de acuerdo con su modelo psicoacústico).
Un formato de codificación de audio sin pérdidas reduce los datos totales necesarios para representar un sonido, pero se puede decodificar a su forma original sin comprimir. Un formato de codificación de audio con pérdida reduce además la resolución de bits del sonido además de la compresión, lo que da como resultado muchos menos datos a costa de información perdida irremediablemente.
El audio transmitido suele comprimirse utilizando códecs de audio con pérdida, ya que el tamaño más pequeño es mucho más conveniente para la distribución. Los formatos de codificación de audio más utilizados son MP3 y Advanced Audio Coding (AAC), los cuales son formatos con pérdida basados en transformada de coseno discreta modificada (MDCT) y algoritmos de codificación perceptiva .
A veces están disponibles formatos de codificación de audio sin pérdida, como FLAC y Apple Lossless , aunque a costa de archivos más grandes.
A veces también se utilizan formatos de audio sin comprimir , como la modulación de código de pulso (PCM o .wav). PCM era el formato estándar para Compact Disc Digital Audio (CDDA).
En 1950, Bell Labs presentó la patente sobre modulación diferencial de código de pulso (DPCM). [3] El DPCM adaptativo (ADPCM) fue introducido por P. Cummiskey, Nikil S. Jayant y James L. Flanagan en Bell Labs en 1973. [4] [5]
La codificación perceptiva se utilizó por primera vez para la compresión de la codificación del habla , con codificación predictiva lineal (LPC). [6] Los conceptos iniciales para LPC se remontan al trabajo de Fumitada Itakura ( Universidad de Nagoya ) y Shuzo Saito ( Nippon Telegraph and Telephone ) en 1966. [7] Durante la década de 1970, Bishnu S. Atal y Manfred R. Schroeder en Bell Labs desarrolló una forma de LPC llamada codificación predictiva adaptativa (APC), un algoritmo de codificación perceptual que explotaba las propiedades de enmascaramiento del oído humano, seguido a principios de la década de 1980 con el algoritmo de predicción lineal excitada por código (CELP), que logró una relación de compresión significativa para es hora. [6] La codificación perceptiva es utilizada por formatos de compresión de audio modernos como MP3 [6] y AAC .
La transformada de coseno discreta (DCT), desarrollada por Nasir Ahmed , T. Natarajan y KR Rao en 1974, [8] proporcionó la base para la transformada de coseno discreta modificada (MDCT) utilizada por los formatos de compresión de audio modernos como MP3 [9] y AAC. . MDCT fue propuesta por JP Princen, AW Johnson y AB Bradley en 1987, [10] siguiendo trabajos anteriores de Princen y Bradley en 1986. [11] La MDCT es utilizada por formatos de compresión de audio modernos como Dolby Digital , [12] [13 ] MP3 , [9] y codificación de audio avanzada (AAC). [14]