Formato de codificación de audio

Un formato de codificación de audio ^[1] (o, a veces, un formato de compresión de audio ) es un formato de representación de contenido para el almacenamiento o transmisión de audio digital (como en la televisión digital , la radio digital y en archivos de audio y video). Ejemplos de formatos de codificación de audio incluyen MP3 , AAC , Vorbis , FLAC y Opus . Una implementación de software o hardware específica capaz de comprimir y descomprimir audio hacia/desde un formato de codificación de audio específico se denomina códec de audio ; un ejemplo de códec de audio es LAME , que es uno de varios códecs diferentes que implementan la codificación y decodificación de audio en el formato de codificación de audio MP3 en el software.

Algunos formatos de codificación de audio están documentados mediante un documento de especificaciones técnicas detalladas conocido como especificación de codificación de audio . Algunas de estas especificaciones están escritas y aprobadas por organizaciones de estandarización como estándares técnicos y, por lo tanto, se las conoce como estándar de codificación de audio . El término "norma" también se utiliza a veces para las normas de facto y las normas formales.

El contenido de audio codificado en un formato de codificación de audio particular normalmente se encapsula dentro de un formato contenedor . Como tal, el usuario normalmente no tiene un archivo AAC sin formato , sino que tiene un archivo de audio .m4a , que es un contenedor MPEG-4 Parte 14 que contiene audio codificado en AAC. El contenedor también contiene metadatos como título y otras etiquetas, y quizás un índice para una búsqueda rápida. ^[2] Una excepción notable son los archivos MP3 , que son codificación de audio sin formato sin formato contenedor. Los estándares de facto para agregar etiquetas de metadatos como título y artista a MP3, como ID3 , son trucos que funcionan agregando las etiquetas al MP3 y luego confiando en que el reproductor de MP3 reconozca el fragmento como una codificación de audio con formato incorrecto y, por lo tanto, lo omita. . En los archivos de vídeo con audio, el contenido de audio codificado se incluye con el vídeo (en un formato de codificación de vídeo ) dentro de un formato contenedor multimedia .

Un formato de codificación de audio no dicta todos los algoritmos utilizados por un códec que implementa el formato. Una parte importante de cómo funciona la compresión de audio con pérdida es eliminar datos de maneras que los humanos no pueden oír, según un modelo psicoacústico ; el implementador de un codificador tiene cierta libertad de elección sobre qué datos eliminar (de acuerdo con su modelo psicoacústico).

Formatos de codificación de audio sin pérdida, con pérdida y sin comprimir

Un formato de codificación de audio sin pérdidas reduce los datos totales necesarios para representar un sonido, pero se puede decodificar a su forma original sin comprimir. Un formato de codificación de audio con pérdida reduce además la resolución de bits del sonido además de la compresión, lo que da como resultado muchos menos datos a costa de información perdida irremediablemente.

El audio transmitido suele comprimirse utilizando códecs de audio con pérdida, ya que el tamaño más pequeño es mucho más conveniente para la distribución. Los formatos de codificación de audio más utilizados son MP3 y Advanced Audio Coding (AAC), los cuales son formatos con pérdida basados en transformada de coseno discreta modificada (MDCT) y algoritmos de codificación perceptiva .

A veces están disponibles formatos de codificación de audio sin pérdida, como FLAC y Apple Lossless , aunque a costa de archivos más grandes.

A veces también se utilizan formatos de audio sin comprimir , como la modulación de código de pulso (PCM o .wav). PCM era el formato estándar para Compact Disc Digital Audio (CDDA).

Historia

Solidyne 922: la primera tarjeta de sonido comercial con compresión de bits de audio para PC, 1990

En 1950, Bell Labs presentó la patente sobre modulación diferencial de código de pulso (DPCM). ^[3] El DPCM adaptativo (ADPCM) fue introducido por P. Cummiskey, Nikil S. Jayant y James L. Flanagan en Bell Labs en 1973. ^[4]^[5]

La codificación perceptiva se utilizó por primera vez para la compresión de la codificación del habla , con codificación predictiva lineal (LPC). ^[6] Los conceptos iniciales para LPC se remontan al trabajo de Fumitada Itakura ( Universidad de Nagoya ) y Shuzo Saito ( Nippon Telegraph and Telephone ) en 1966. ^[7] Durante la década de 1970, Bishnu S. Atal y Manfred R. Schroeder en Bell Labs desarrolló una forma de LPC llamada codificación predictiva adaptativa (APC), un algoritmo de codificación perceptual que explotaba las propiedades de enmascaramiento del oído humano, seguido a principios de la década de 1980 con el algoritmo de predicción lineal excitada por código (CELP), que logró una relación de compresión significativa para es hora. ^[6] La codificación perceptiva es utilizada por formatos de compresión de audio modernos como MP3 ^[6] y AAC .

La transformada de coseno discreta (DCT), desarrollada por Nasir Ahmed , T. Natarajan y KR Rao en 1974, ^[8] proporcionó la base para la transformada de coseno discreta modificada (MDCT) utilizada por los formatos de compresión de audio modernos como MP3 ^[9] y AAC. . MDCT fue propuesta por JP Princen, AW Johnson y AB Bradley en 1987, ^[10] siguiendo trabajos anteriores de Princen y Bradley en 1986. ^[11] La MDCT es utilizada por formatos de compresión de audio modernos como Dolby Digital , ^[12]^{[13 ]} MP3 , ^[9] y codificación de audio avanzada (AAC). ^[14]

Lista de formatos con pérdida

General

Discurso

Codificación predictiva lineal (LPC)
- Codificación predictiva adaptativa (APC)
- Predicción lineal excitada por código (CELP)
- Predicción lineal excitada por código algebraico (ACELP)
- Predicción lineal excitada por código relajado (RCELP)
- CELP de bajo retardo (LD-CELP)
- Multitasa adaptativa (utilizada en GSM y 3GPP )
- Codec 2 (destacado por su falta de restricciones de patentes)
- Speex (conocido por su falta de restricciones de patentes)
Transformada de coseno discreta modificada (MDCT)
- AAC-LD
- Transformada superpuesta de energía restringida (CELT)
- Opus (principalmente para aplicaciones en tiempo real)

Lista de formatos sin pérdida

Apple Lossless (ALAC - Códec de audio sin pérdidas de Apple)
Codificación acústica de transformación adaptativa (ATRAC)
Codificación de audio sin pérdidas (también conocida como MPEG-4 ALS)
Transferencia de transmisión directa (DST)
Dolby TrueHD
Audio maestro DTS-HD
Códec de audio sin pérdidas gratuito (FLAC)
Transformada de coseno discreta sin pérdidas (LDCT)
Embalaje Meridian sin pérdidas (MLP)
Audio del mono (APE del audio del mono)
MPEG-4 SLS (también conocido como HD-AAC)
OptimFROG
Calidad de sonido original (OSQ)
RealPlayer (RealAudio sin pérdidas)
Acortar (SHN)
TTA (Audio verdadero sin pérdidas)
WavPack (WavPack sin pérdidas)
WMA sin pérdidas (Windows Media sin pérdidas)

Ver también

Referencias

^ El término "codificación de audio" se puede ver, por ejemplo, en el nombre Codificación de audio avanzada y es análogo al término codificación de video.
^ "Video: ¿Dónde se almacena la información de sincronización en formatos de contenedor?".
^ Patente estadounidense 2605361, C. Chapin Cutler, "Cuantización diferencial de señales de comunicación", publicada el 29 de julio de 1952
^ Cummiskey, P.; Jayant, NS; Flanagan, JL (1973). "Cuantización adaptativa en codificación PCM diferencial del habla". Revista técnica del sistema Bell . 52 (7): 1105-1118. doi :10.1002/j.1538-7305.1973.tb02007.x.
^ Cummiskey, P.; Jayant, Nikil S.; Flanagan, JL (1973). "Cuantización adaptativa en codificación PCM diferencial de voz". La revista técnica de Bell System . 52 (7): 1105-1118. doi :10.1002/j.1538-7305.1973.tb02007.x. ISSN 0005-8580.
^ abc Schroeder, Manfred R. (2014). "Laboratorios Bell". Acústica, información y comunicación: volumen conmemorativo en honor a Manfred R. Schroeder . Saltador. pag. 388.ISBN 9783319056609.
^ Gris, Robert M. (2010). "Una historia del habla digital en tiempo real en redes de paquetes: parte II de la codificación predictiva lineal y el protocolo de Internet" (PDF) . Encontró. Proceso de señales de tendencias . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN 1932-8346.
^ Nasir Ahmed ; T. Natarajan; Kamisetty Ramamohan Rao (enero de 1974). "Transformada de coseno discreto" (PDF) . Transacciones IEEE en computadoras . C-23 (1): 90–93. doi :10.1109/TC.1974.223784. S2CID 149806273. Archivado desde el original (PDF) el 8 de diciembre de 2016 . Consultado el 20 de octubre de 2019 .
^ abc Guckert, John (primavera de 2012). "El uso de FFT y MDCT en la compresión de audio MP3" (PDF) . Universidad de Utah . Consultado el 14 de julio de 2019 .
^ Príncipe, J.; Johnson, A.; Bradley, A. (1987). "Codificación de subbanda/transformación utilizando diseños de bancos de filtros basados en la cancelación de alias en el dominio del tiempo". ICASP '87. Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales . vol. 12. págs. 2161-2164. doi :10.1109/ICASSP.1987.1169405. S2CID 58446992.
^ Príncipe, J.; Bradley, A. (1986). "Diseño de banco de filtros de análisis/síntesis basado en la cancelación de alias en el dominio del tiempo". Transacciones IEEE sobre acústica, voz y procesamiento de señales . 34 (5): 1153-1161. doi :10.1109/TASSP.1986.1164954.
^ abcdef Luo, Fa-Long (2008). Estándares de radiodifusión multimedia móvil: tecnología y práctica. Medios de ciencia y negocios de Springer . pag. 590.ISBN 9780387782638.
^ Britanak, V. (2011). "Sobre propiedades, relaciones e implementación simplificada de bancos de filtros en los estándares de codificación de audio Dolby Digital (Plus) AC-3". Transacciones IEEE sobre procesamiento de audio, voz y lenguaje . 19 (5): 1231–1241. doi :10.1109/TASL.2010.2087755. S2CID 897622.
^ ab Brandeburgo, Karlheinz (1999). "Explicación de MP3 y AAC" (PDF) . Archivado (PDF) desde el original el 13 de febrero de 2017.
^ "Informe para desarrolladores de vídeo 2019" (PDF) . Bitmovin . 2019 . Consultado el 5 de noviembre de 2019 .
^ Britanak, V. (2011). "Sobre propiedades, relaciones e implementación simplificada de bancos de filtros en los estándares de codificación de audio Dolby Digital (Plus) AC-3". Transacciones IEEE sobre procesamiento de audio, voz y lenguaje . 19 (5): 1231–1241. doi :10.1109/TASL.2010.2087755. S2CID 897622.
^ Stanković, Radomir S.; Astola, Jaakko T. (2012). "Reminiscencias de los primeros trabajos en DCT: entrevista con KR Rao" (PDF) . Reimpresiones de los primeros días de las ciencias de la información . 60 . Consultado el 13 de octubre de 2019 .
^ Fundación Xiph.Org (2 de junio de 2009). "Especificación Vorbis I - Clasificación 1.1.2". Fundación Xiph.Org . Consultado el 22 de septiembre de 2009 .
^ Terriberry, Timothy B. Presentación del códec CELT. Presentación (PDF) .
^ Valin, Jean-Marc; Maxwell, Gregorio; Terriberry, Timothy B.; Vos, Koen (octubre de 2013). Codificación de música de alta calidad y bajo retardo en el códec Opus . 135ª Convención AES. Sociedad de Ingeniería de Audio . arXiv : 1602.04845 .
^ Darko, John H. (29 de marzo de 2017). "La incómoda verdad sobre el audio Bluetooth". DAR__KO . Archivado desde el original el 14 de enero de 2018 . Consultado el 13 de enero de 2018 .
^ Ford, Jez (24 de agosto de 2015). "¿Qué es Sony LDAC y cómo lo hace?". AVHub . Consultado el 13 de enero de 2018 .
^ Ford, Jez (22 de noviembre de 2016). "aptX HD: ¿sin pérdidas o con pérdidas?". AVHub . Consultado el 13 de enero de 2018 .
^ "Formatos de audio de sistemas de cine digital". Biblioteca del Congreso . 27 de diciembre de 2011 . Consultado el 10 de noviembre de 2019 .
^ Españas, Andreas; Pintor, Ted; Atti, Venkatraman (2006). Procesamiento y codificación de señales de audio. John Wiley e hijos . pag. 338.ISBN 9780470041963.