El audio digital es una representación del sonido grabado o convertido en formato digital . En audio digital, la onda sonora de la señal de audio normalmente se codifica como muestras numéricas en una secuencia continua. Por ejemplo, en un CD de audio , las muestras se toman 44.100 veces por segundo , cada una con una profundidad de muestra de 16 bits . Audio digital es también el nombre de toda la tecnología de grabación y reproducción de sonido utilizando señales de audio codificadas en forma digital. Tras importantes avances en la tecnología de audio digital durante las décadas de 1970 y 1980, reemplazó gradualmente la tecnología de audio analógico en muchas áreas de la ingeniería de audio , la producción discográfica y las telecomunicaciones en las décadas de 1990 y 2000.
En un sistema de audio digital, una señal eléctrica analógica que representa el sonido se convierte con un convertidor analógico a digital (ADC) en una señal digital, normalmente utilizando modulación de código de pulso (PCM). Esta señal digital luego se puede grabar, editar, modificar y copiar utilizando computadoras , máquinas de reproducción de audio y otras herramientas digitales. Para la reproducción, un convertidor de digital a analógico (DAC) realiza el proceso inverso, convirtiendo una señal digital nuevamente en una señal analógica, que luego se envía a través de un amplificador de potencia de audio y, finalmente, a un altavoz .
Los sistemas de audio digital pueden incluir componentes de compresión , almacenamiento , procesamiento y transmisión . La conversión a un formato digital permite una cómoda manipulación, almacenamiento, transmisión y recuperación de una señal de audio. A diferencia del audio analógico, en el que hacer copias de una grabación provoca una pérdida de generación y una degradación de la calidad de la señal, el audio digital permite realizar un número infinito de copias sin ninguna degradación de la calidad de la señal.
Las tecnologías de audio digital se utilizan en la grabación, manipulación, producción en masa y distribución de sonido, incluidas grabaciones de canciones , piezas instrumentales, podcasts , efectos de sonido y otros sonidos. La distribución moderna de música en línea depende de la grabación digital y la compresión de datos . La disponibilidad de música como archivos de datos, en lugar de como objetos físicos, ha reducido significativamente los costos de distribución y ha facilitado el intercambio de copias. [1] Antes del audio digital, la industria musical distribuía y vendía música mediante la venta de copias físicas en forma de discos y cintas de casete . Con sistemas de distribución de audio digital y en línea como iTunes , las empresas venden archivos de sonido digitales a los consumidores, que el consumidor recibe a través de Internet. Servicios de streaming populares como Apple Music , Spotify o YouTube ofrecen acceso temporal al archivo digital y ahora son la forma más común de consumo de música. [2]
Un sistema de audio analógico convierte formas de onda físicas de sonido en representaciones eléctricas de esas formas de onda mediante el uso de un transductor , como un micrófono . Luego, los sonidos se almacenan en un medio analógico, como una cinta magnética , o se transmiten a través de un medio analógico, como una línea telefónica o una radio . El proceso se invierte para la reproducción: la señal de audio eléctrica se amplifica y luego se vuelve a convertir en formas de onda físicas a través de un altavoz . El audio analógico conserva sus características fundamentales de onda durante su almacenamiento, transformación, duplicación y amplificación.
Las señales de audio analógicas son susceptibles al ruido y la distorsión debido a las características innatas de los circuitos electrónicos y dispositivos asociados. Las perturbaciones en un sistema digital no dan lugar a errores a menos que sean tan grandes como para dar lugar a que un símbolo se malinterprete como otro símbolo o perturben la secuencia de símbolos. Por lo tanto, generalmente es posible tener un sistema de audio digital completamente libre de errores en el que no se introduce ruido ni distorsión entre la conversión al formato digital y la conversión de nuevo a analógico. [a]
Se puede codificar una señal de audio digital para corregir cualquier error que pueda ocurrir en el almacenamiento o transmisión de la señal. Esta técnica, conocida como codificación de canales , es esencial para que los sistemas digitales de transmisión o grabación mantengan la precisión de los bits. La modulación de ocho a catorce es el código de canal utilizado para el disco compacto de audio (CD).
Si una señal de audio es analógica, un sistema de audio digital comienza con un ADC que convierte una señal analógica en una señal digital. [b] El ADC se ejecuta a una frecuencia de muestreo específica y convierte a una resolución de bits conocida. El audio de CD , por ejemplo, tiene una frecuencia de muestreo de 44,1 kHz (44.100 muestras por segundo) y una resolución de 16 bits para cada canal estéreo . Las señales analógicas que aún no tienen una banda limitada deben pasar a través de un filtro antialiasing antes de la conversión, para evitar la distorsión de aliasing causada por señales de audio con frecuencias superiores a la frecuencia de Nyquist (la mitad de la frecuencia de muestreo).
Se puede almacenar o transmitir una señal de audio digital. El audio digital se puede almacenar en un CD, un reproductor de audio digital , un disco duro , una unidad flash USB o cualquier otro dispositivo de almacenamiento de datos digitales . La señal digital se puede alterar mediante el procesamiento de señal digital , donde se puede filtrar o aplicar efectos . La conversión de frecuencia de muestreo, incluido el muestreo ascendente y descendente, se puede utilizar para cambiar señales que han sido codificadas con una frecuencia de muestreo diferente a una frecuencia de muestreo común antes del procesamiento. Las técnicas de compresión de datos de audio, como MP3 , codificación de audio avanzada , Ogg Vorbis o FLAC , se emplean comúnmente para reducir el tamaño del archivo. El audio digital se puede transmitir a través de interfaces de audio digital como AES3 o MADI . El audio digital se puede transmitir a través de una red utilizando audio a través de Ethernet , audio a través de IP u otros estándares y sistemas de transmisión de medios .
Para la reproducción, el audio digital debe volver a convertirse a una señal analógica con un DAC. Según el teorema de muestreo de Nyquist-Shannon , con algunas restricciones prácticas y teóricas, se puede reconstruir con precisión una versión de banda limitada de la señal analógica original a partir de la señal digital.
Durante la conversión, los datos de audio se pueden incrustar con una marca de agua digital para evitar la piratería y el uso no autorizado. La marca de agua se realiza mediante un método de espectro ensanchado de secuencia directa (DSSS). Luego, la información de audio se modula mediante una secuencia de pseudoruido (PN), luego se le da forma dentro del dominio de la frecuencia y se devuelve a la señal original. La fuerza de la incrustación determina la fuerza de la marca de agua en los datos de audio. [4]
La modulación de código de pulso (PCM) fue inventada por el científico británico Alec Reeves en 1937. [5] En 1950, C. Chapin Cutler de Bell Labs presentó la patente sobre la modulación diferencial de código de pulso (DPCM), [6] un algoritmo de compresión de datos . . El DPCM adaptativo (ADPCM) fue introducido por P. Cummiskey, Nikil S. Jayant y James L. Flanagan en Bell Labs en 1973. [7] [8]
La codificación perceptiva se utilizó por primera vez para la compresión de la codificación del habla , con codificación predictiva lineal (LPC). [9] Los conceptos iniciales para LPC se remontan al trabajo de Fumitada Itakura ( Universidad de Nagoya ) y Shuzo Saito ( Nippon Telegraph and Telephone ) en 1966. [10] Durante la década de 1970, Bishnu S. Atal y Manfred R. Schroeder en Bell Labs desarrolló una forma de LPC llamada codificación predictiva adaptativa (APC), un algoritmo de codificación perceptual que explotaba las propiedades de enmascaramiento del oído humano, seguido a principios de la década de 1980 con el algoritmo de predicción lineal excitada por código (CELP). [9]
La codificación por transformada de coseno discreta (DCT), un método de compresión con pérdidas propuesto por primera vez por Nasir Ahmed en 1972, [11] [12] proporcionó la base para la transformada de coseno discreta modificada (MDCT), que fue desarrollada por JP Princen, AW Johnson y AB. Bradley en 1987. [13] La MDCT es la base de la mayoría de los estándares de codificación de audio , como Dolby Digital (AC-3), [14] MP3 ( MPEG Layer III), [15] [9] Codificación de audio avanzada (AAC) , Windows Media Audio (WMA) y Vorbis ( Ogg ). [14]
PCM se utilizó en aplicaciones de telecomunicaciones mucho antes de su primer uso en transmisiones y grabaciones comerciales. La grabación digital comercial fue iniciada en Japón por NHK y Nippon Columbia y su marca Denon , en la década de 1960. Las primeras grabaciones digitales comerciales se publicaron en 1971. [16]
La BBC también comenzó a experimentar con audio digital en los años 1960. A principios de la década de 1970, había desarrollado una grabadora de dos canales y en 1972 implementó un sistema de transmisión de audio digital que conectaba su centro de transmisión con sus transmisores remotos. [16]
La primera grabación PCM de 16 bits en Estados Unidos fue realizada por Thomas Stockham en la Ópera de Santa Fe en 1976, en una grabadora Soundstream . Telarc utilizó una versión mejorada del sistema Soundstream para producir varias grabaciones clásicas en 1978. La grabadora multipista digital 3M en desarrollo en ese momento se basó en la tecnología de la BBC. El primer álbum totalmente digital grabado en esta máquina fue Bop Until You Drop de Ry Cooder en 1979. El sello discográfico británico Decca comenzó a desarrollar sus propias grabadoras de audio digital de 2 pistas en 1978 y lanzó la primera grabación digital europea en 1979 . 16]
Las populares grabadoras multipista digitales profesionales producidas por Sony/Studer ( DASH ) y Mitsubishi ( ProDigi ) a principios de la década de 1980 ayudaron a lograr la aceptación de la grabación digital por parte de las principales compañías discográficas. Las máquinas para estos formatos también tenían sus propios transportes incorporados, usando cintas de carrete a carrete en anchos de 1/4", 1/2" o 1", y los datos de audio se grababan en la cinta usando un multi Cabezal de cinta estacionario de dos pistas. Los adaptadores PCM permiten la grabación de audio digital estéreo en una grabadora de vídeo NTCS o PAL convencional .
La introducción del CD en 1982 por parte de Philips y Sony popularizó el audio digital entre los consumidores. [16]
ADAT estuvo disponible a principios de la década de 1990, lo que permitió la grabación de ocho pistas a 44,1 o 48 kHz en casetes S-VHS, y DTRS realizó una función similar con cintas Hi8.
Los formatos como ProDigi y DASH se denominaron formatos SDAT ( Stationary -head D igital Audio T ape), a diferencia de formatos como los sistemas basados en adaptador PCM y DAT, que se denominaron RDAT ( R otating-head D) . Formatos de cinta de audio digital ), debido a su proceso de grabación de escaneo helicoidal.
Al igual que el casete DAT , las máquinas ProDigi y DASH también aceptaron la frecuencia de muestreo obligatoria de 44,1 kHz, pero también 48 kHz en todas las máquinas y, finalmente, una frecuencia de muestreo de 96 kHz. Superaron los problemas que hacían que las grabadoras analógicas típicas no pudieran satisfacer las demandas de ancho de banda (rango de frecuencia) de la grabación digital mediante una combinación de velocidades de cinta más altas, espacios entre cabezales más estrechos utilizados en combinación con cintas de formulación metálica y la distribución de datos a través de múltiples canales paralelos. pistas.
A diferencia de los sistemas analógicos, las modernas estaciones de trabajo de audio digital e interfaces de audio permiten tantos canales en tantas frecuencias de muestreo diferentes como la computadora pueda ejecutar efectivamente al mismo tiempo. Avid Audio y Steinberg lanzaron los primeros programas de software para estaciones de trabajo de audio digital en 1989. [17] Las estaciones de trabajo de audio digital facilitan mucho la grabación y mezcla multipista para proyectos grandes que de otro modo serían difíciles con equipos analógicos.
El rápido desarrollo y la amplia adopción de la telefonía digital PCM fueron posibles gracias a la tecnología de circuitos de condensadores conmutados (SC ) semiconductores de óxido metálico (MOS), desarrollada a principios de la década de 1970. [18] Esto llevó al desarrollo de chips de filtro de códec PCM a finales de la década de 1970. [18] [19] El chip de filtro códec PCM CMOS (MOS complementario) de puerta de silicio , desarrollado por David A. Hodges y WC Black en 1980, [18] ha sido desde entonces el estándar de la industria para la telefonía digital. [18] [19] En la década de 1990, las redes de telecomunicaciones , como la red telefónica pública conmutada (PSTN), se habían digitalizado en gran medida con filtros códec CMOS PCM VLSI ( integración a muy gran escala ), ampliamente utilizados en sistemas de conmutación electrónica para centrales telefónicas. , módems de usuario final y una gama de aplicaciones de transmisión digital como la red digital de servicios integrados (RDSI), teléfonos inalámbricos y teléfonos móviles . [19]
El audio digital se utiliza en la transmisión de audio. Las tecnologías estándar incluyen transmisión de audio digital (DAB), Digital Radio Mondiale (DRM), HD Radio y en banda en canal (IBOC).
El audio digital en las aplicaciones de grabación se almacena en tecnologías específicas de audio, incluidos CD, cinta de audio digital (DAT), casete compacto digital (DCC) y MiniDisc . El audio digital puede almacenarse en formatos de archivo de audio estándar y almacenarse en una grabadora de disco duro , Blu-ray o DVD-Audio . Los archivos se pueden reproducir en teléfonos inteligentes, computadoras o reproductores de MP3 . La resolución de audio digital se mide en profundidad de muestra . La mayoría de los formatos de audio digital utilizan una profundidad de muestra de 16, 24 y 32 bits.
Para computadoras personales , USB e IEEE 1394 tienen disposiciones para entregar audio digital en tiempo real. Las interfaces USB se han vuelto cada vez más populares entre los ingenieros y productores de audio independientes debido a su pequeño tamaño y facilidad de uso. En aplicaciones profesionales de arquitectura o instalación, existen muchos protocolos e interfaces de audio a través de Ethernet . En radiodifusión , se prefiere una tecnología de red de audio sobre IP más general . En telefonía, la voz sobre IP se utiliza como interfaz de red para audio digital para comunicaciones de voz.
Varias interfaces están diseñadas para transportar vídeo y audio digitales juntos, incluidas HDMI y DisplayPort . Algunas interfaces ofrecen soporte MIDI , así como puertos analógicos XLR y TRS .
Las interfaces específicas de audio digital incluyen: