Formato de codificación de audio

Un formato de codificación de audio ^[1] (o, a veces, formato de compresión de audio ) es un formato de representación de contenido para el almacenamiento o la transmisión de audio digital (como en televisión digital , radio digital y en archivos de audio y video). Los ejemplos de formatos de codificación de audio incluyen MP3 , AAC , Vorbis , FLAC y Opus . Una implementación específica de software o hardware capaz de comprimir y descomprimir audio hacia/desde un formato de codificación de audio específico se denomina códec de audio ; un ejemplo de códec de audio es LAME , que es uno de varios códecs diferentes que implementan la codificación y decodificación de audio en el formato de codificación de audio MP3 en software.

Algunos formatos de codificación de audio se documentan mediante un documento de especificaciones técnicas detallado, conocido como especificación de codificación de audio . Algunas de estas especificaciones son redactadas y aprobadas por organizaciones de estandarización como estándares técnicos , por lo que se conocen como estándares de codificación de audio . El término "estándar" también se utiliza a veces para estándares de facto, así como para estándares formales.

El contenido de audio codificado en un formato de codificación de audio particular normalmente se encapsula dentro de un formato contenedor . Como tal, el usuario normalmente no tiene un archivo AAC sin procesar , sino que tiene un archivo de audio .m4a , que es un contenedor MPEG-4 Parte 14 que contiene audio codificado en AAC. El contenedor también contiene metadatos como título y otras etiquetas, y quizás un índice para una búsqueda rápida. ^[2] Una excepción notable son los archivos MP3 , que son codificación de audio sin procesar sin un formato contenedor. Los estándares de facto para agregar etiquetas de metadatos como título y artista a MP3, como ID3 , son hacks que funcionan agregando las etiquetas al MP3 y luego confiando en que el reproductor de MP3 reconozca el fragmento como codificación de audio malformada y, por lo tanto, lo omita. En los archivos de video con audio, el contenido de audio codificado se incluye con el video (en un formato de codificación de video ) dentro de un formato contenedor multimedia .

Un formato de codificación de audio no dicta todos los algoritmos que utiliza un códec que implementa el formato. Una parte importante de cómo funciona la compresión de audio con pérdida es la eliminación de datos de formas que los humanos no pueden oír, según un modelo psicoacústico ; el implementador de un codificador tiene cierta libertad para elegir qué datos eliminar (según su modelo psicoacústico).

Formatos de codificación de audio sin pérdida, con pérdida y sin comprimir

Un formato de codificación de audio sin pérdida reduce la cantidad total de datos necesarios para representar un sonido, pero se puede decodificar a su forma original, sin comprimir. Un formato de codificación de audio con pérdida reduce además la resolución de bits del sonido, además de la compresión, lo que da como resultado muchos menos datos a costa de perder información irremediablemente.

El audio transmitido (transmitido por streaming) se comprime con mayor frecuencia mediante códecs de audio con pérdida, ya que un tamaño más pequeño resulta mucho más conveniente para la distribución. Los formatos de codificación de audio más utilizados son MP3 y Advanced Audio Coding (AAC), ambos formatos con pérdida basados en la transformada de coseno discreta modificada (MDCT) y algoritmos de codificación perceptual .

Los formatos de codificación de audio sin pérdida, como FLAC y Apple Lossless , a veces están disponibles, aunque a costa de archivos más grandes.

A veces también se utilizan formatos de audio sin comprimir , como la modulación por código de pulsos (PCM o .wav). PCM era el formato estándar para el audio digital en disco compacto (CDDA).

Historia

Solidyne 922: La primera tarjeta de sonido comercial del mundo con compresión de bits de audio para PC, 1990

En 1950, Bell Labs presentó la patente de modulación de pulsos codificados diferenciales (DPCM). ^[3] La DPCM adaptativa (ADPCM) fue introducida por P. Cummiskey, Nikil S. Jayant y James L. Flanagan en Bell Labs en 1973. ^[4]^[5]

La codificación perceptiva se utilizó por primera vez para la compresión de codificación de voz , con codificación predictiva lineal (LPC). ^[6] Los conceptos iniciales para LPC se remontan al trabajo de Fumitada Itakura ( Universidad de Nagoya ) y Shuzo Saito ( Nippon Telegraph and Telephone ) en 1966. ^[7] Durante la década de 1970, Bishnu S. Atal y Manfred R. Schroeder en Bell Labs desarrollaron una forma de LPC llamada codificación predictiva adaptativa (APC), un algoritmo de codificación perceptiva que explotaba las propiedades de enmascaramiento del oído humano, seguido a principios de la década de 1980 con el algoritmo de predicción lineal excitada por código (CELP) que logró una relación de compresión significativa para su época. ^[6] La codificación perceptiva es utilizada por formatos de compresión de audio modernos como MP3 ^[6] y AAC .

La transformada discreta del coseno (DCT), desarrollada por Nasir Ahmed , T. Natarajan y KR Rao en 1974, ^[8] proporcionó la base para la transformada discreta del coseno modificada (MDCT) utilizada por los formatos de compresión de audio modernos como MP3 ^[9] y AAC. La MDCT fue propuesta por JP Princen, AW Johnson y AB Bradley en 1987, ^[10] siguiendo el trabajo anterior de Princen y Bradley en 1986. ^[11] La MDCT es utilizada por formatos de compresión de audio modernos como Dolby Digital , ^[12]^[13] MP3 , ^[9] y Advanced Audio Coding (AAC). ^[14]

Lista de formatos con pérdida

General

Discurso

Codificación predictiva lineal (LPC)
- Codificación predictiva adaptativa (APC)
- Predicción lineal excitada por código (CELP)
- Predicción lineal excitada por código algebraico (ACELP)
- Predicción lineal relajada excitada por código (RCELP)
- CELP de bajo retardo (LD-CELP)
- Multivelocidad adaptativa (utilizada en GSM y 3GPP )
- Codec 2 (conocido por su falta de restricciones de patentes)
- Speex (conocido por su falta de restricciones de patentes)
Transformada de coseno discreta modificada (MDCT)
- AAC-LD
- Transformada superpuesta de energía restringida (CELT)
- Opus (principalmente para aplicaciones en tiempo real)

Lista de formatos sin pérdida

Apple Lossless (ALAC: códec de audio Apple Lossless)
Codificación acústica de transformación adaptativa (ATRAC)
Codificación de audio sin pérdida (también conocida como MPEG-4 ALS)
Transferencia de transmisión directa (DST)
Dolby True HD
Audio maestro DTS-HD
Códec de audio sin pérdida gratuito (FLAC)
Transformada discreta del coseno sin pérdida (LDCT)
Empaquetado sin pérdida de meridianos (MLP)
Audio de mono (Audio de mono APE)
MPEG-4 SLS (también conocido como HD-AAC)
OptimFROG
Calidad de sonido original (OSQ)
RealPlayer (RealAudio sin pérdida)
Acortar (SHN)
TTA (audio verdadero sin pérdida)
WavPack (WavPack sin pérdida)
WMA sin pérdida (Windows Media Lossless)

Véase también

Referencias

^ El término "codificación de audio" se puede ver, por ejemplo, en el nombre Codificación de audio avanzada , y es análogo al término codificación de video.
^ "Video: ¿Dónde se almacena la información de sincronización en los formatos contenedores?".
^ Patente estadounidense 2605361, C. Chapin Cutler, "Cuantización diferencial de señales de comunicación", publicada el 29 de julio de 1952
^ Cummiskey, P.; Jayant, NS; Flanagan, JL (1973). "Cuantización adaptativa en codificación PCM diferencial del habla". Bell System Technical Journal . 52 (7): 1105–1118. doi :10.1002/j.1538-7305.1973.tb02007.x.
^ Cummiskey, P.; Jayant, Nikil S.; Flanagan, JL (1973). "Cuantización adaptativa en la codificación PCM diferencial del habla". The Bell System Technical Journal . 52 (7): 1105–1118. doi :10.1002/j.1538-7305.1973.tb02007.x. ISSN 0005-8580.
^ abc Schroeder, Manfred R. (2014). "Bell Laboratories". Acústica, información y comunicación: volumen conmemorativo en honor a Manfred R. Schroeder . Springer. pág. 388. ISBN 9783319056609.
^ Gray, Robert M. (2010). "Una historia del habla digital en tiempo real en redes de paquetes: Parte II de la codificación predictiva lineal y el protocolo de Internet" (PDF) . Encontrado. Trends Signal Process . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN 1932-8346.
^ Nasir Ahmed ; T. Natarajan; Kamisetty Ramamohan Rao (enero de 1974). "Transformada discreta del coseno" (PDF) . IEEE Transactions on Computers . C-23 (1): 90–93. doi :10.1109/TC.1974.223784. S2CID 149806273. Archivado desde el original (PDF) el 2016-12-08 . Consultado el 2019-10-20 .
^ abc Guckert, John (primavera de 2012). "El uso de FFT y MDCT en la compresión de audio MP3" (PDF) . Universidad de Utah . Consultado el 14 de julio de 2019 .
^ Princen, J.; Johnson, A.; Bradley, A. (1987). "Codificación de subbanda/transformación utilizando diseños de bancos de filtros basados en la cancelación de aliasing en el dominio del tiempo". ICASSP '87. IEEE International Conference on Acoustics, Speech, and Signal Processing . Vol. 12. págs. 2161–2164. doi :10.1109/ICASSP.1987.1169405. S2CID 58446992.
^ Princen, J.; Bradley, A. (1986). "Diseño de un banco de filtros de análisis/síntesis basado en la cancelación de aliasing en el dominio del tiempo". IEEE Transactions on Acoustics, Speech, and Signal Processing . 34 (5): 1153–1161. doi :10.1109/TASSP.1986.1164954.
^ abcdef Luo, Fa-Long (2008). Estándares de transmisión multimedia móvil: tecnología y práctica. Springer Science & Business Media . pág. 590. ISBN 9780387782638.
^ Britanak, V. (2011). "Sobre propiedades, relaciones e implementación simplificada de bancos de filtros en los estándares de codificación de audio Dolby Digital (Plus) AC-3". IEEE Transactions on Audio, Speech, and Language Processing . 19 (5): 1231–1241. doi :10.1109/TASL.2010.2087755. S2CID 897622.
^ ab Brandenburg, Karlheinz (1999). "MP3 y AAC explicados" (PDF) . Archivado (PDF) desde el original el 13 de febrero de 2017.
^ "Informe de desarrolladores de vídeo 2019" (PDF) . Bitmovin . 2019 . Consultado el 5 de noviembre de 2019 .
^ Britanak, V. (2011). "Sobre propiedades, relaciones e implementación simplificada de bancos de filtros en los estándares de codificación de audio Dolby Digital (Plus) AC-3". IEEE Transactions on Audio, Speech, and Language Processing . 19 (5): 1231–1241. doi :10.1109/TASL.2010.2087755. S2CID 897622.
^ Stanković, Radomir S.; Astola, Jaakko T. (2012). "Reminiscencias de los primeros trabajos en DCT: entrevista con KR Rao" (PDF) . Reimpresiones de los primeros días de las ciencias de la información . 60 . Consultado el 13 de octubre de 2019 .
^ Xiph.Org Foundation (2009-06-02). "Especificación Vorbis I - Clasificación 1.1.2". Xiph.Org Foundation . Consultado el 22 de septiembre de 2009 .
^ Terriberry, Timothy B. Presentación del códec CELT. Presentación (PDF) .
^ Valin, Jean-Marc; Maxwell, Gregory; Terriberry, Timothy B.; Vos, Koen (octubre de 2013). Codificación de música de alta calidad y bajo retardo en el códec Opus . 135.ª Convención de la AES. Sociedad de Ingeniería de Audio . arXiv : 1602.04845 .
^ Darko, John H. (29 de marzo de 2017). "La verdad incómoda sobre el audio Bluetooth". DAR__KO . Archivado desde el original el 14 de enero de 2018. Consultado el 13 de enero de 2018 .
^ Ford, Jez (24 de agosto de 2015). "¿Qué es Sony LDAC y cómo lo hace?". AVHub . Consultado el 13 de enero de 2018 .
^ Ford, Jez (22 de noviembre de 2016). "aptX HD: ¿con o sin pérdida?". AVHub . Consultado el 13 de enero de 2018 .
^ "Formatos de audio de sistemas de cine digital". Biblioteca del Congreso . 27 de diciembre de 2011 . Consultado el 10 de noviembre de 2019 .
^ Spanias, Andreas; Painter, Ted; Atti, Venkatraman (2006). Procesamiento y codificación de señales de audio. John Wiley & Sons . pág. 338. ISBN 9780470041963.