En el audio digital que utiliza modulación por código de pulsos (PCM), la profundidad de bits es la cantidad de bits de información en cada muestra y corresponde directamente a la resolución de cada muestra. Algunos ejemplos de profundidad de bits incluyen Compact Disc Digital Audio , que utiliza 16 bits por muestra, y DVD-Audio y Blu-ray Disc , que pueden admitir hasta 24 bits por muestra.
En las implementaciones básicas, las variaciones en la profundidad de bits afectan principalmente el nivel de ruido del error de cuantificación , es decir, la relación señal-ruido (SNR) y el rango dinámico . Sin embargo, técnicas como el tramado , la modelación del ruido y el sobremuestreo pueden mitigar estos efectos sin cambiar la profundidad de bits. La profundidad de bits también afecta la velocidad de bits y el tamaño del archivo.
La profundidad de bits es útil para describir señales digitales PCM . Los formatos que no son PCM, como los que utilizan compresión con pérdida , no tienen profundidades de bits asociadas. [a]
Una señal PCM es una secuencia de muestras de audio digital que contiene los datos que proporcionan la información necesaria para reconstruir la señal analógica original . Cada muestra representa la amplitud de la señal en un punto específico en el tiempo, y las muestras están espaciadas uniformemente en el tiempo. La amplitud es la única información almacenada explícitamente en la muestra, y normalmente se almacena como un número entero o un número de punto flotante , codificado como un número binario con un número fijo de dígitos: la profundidad de bits de la muestra , también conocida como longitud de palabra o tamaño de palabra.
La resolución indica la cantidad de valores discretos que se pueden representar en el rango de valores analógicos. La resolución de los números enteros binarios aumenta exponencialmente a medida que aumenta la longitud de la palabra: agregar un bit duplica la resolución, agregar dos la cuadruplica, y así sucesivamente. La cantidad de valores posibles que puede representar una profundidad de bits de un número entero se puede calcular utilizando 2 n , donde n es la profundidad de bits. [1] Por lo tanto, un sistema de 16 bits tiene una resolución de 65 536 (2 16 ) valores posibles.
Los datos de audio PCM enteros generalmente se almacenan como números con signo en formato de complemento a dos . [2]
Hoy en día, la mayoría de los formatos de archivos de audio y estaciones de trabajo de audio digital (DAW) admiten formatos PCM con muestras representadas por números de punto flotante. [3] [4] [5] [6] Tanto el formato de archivo WAV como el formato de archivo AIFF admiten representaciones de punto flotante. [7] [8] A diferencia de los números enteros, cuyo patrón de bits es una única serie de bits, un número de punto flotante se compone de campos separados cuya relación matemática forma un número. El estándar más común es IEEE 754 , que se compone de tres campos: un bit de signo que representa si el número es positivo o negativo, una mantisa y un exponente que determina un factor de potencia de dos para escalar la mantisa. La mantisa se expresa como una fracción binaria en los formatos de punto flotante de base dos IEEE. [9]
La profundidad de bits limita la relación señal-ruido (SNR) de la señal reconstruida a un nivel máximo determinado por el error de cuantificación . La profundidad de bits no tiene impacto en la respuesta de frecuencia , que está limitada por la frecuencia de muestreo .
El error de cuantificación introducido durante la conversión de analógico a digital (ADC) se puede modelar como ruido de cuantificación. Es un error de redondeo entre el voltaje de entrada analógico al ADC y el valor digitalizado de salida. El ruido es no lineal y depende de la señal.
En un ADC ideal, donde el error de cuantificación se distribuye uniformemente entre los bits menos significativos (LSB) y donde la señal tiene una distribución uniforme que cubre todos los niveles de cuantificación, la relación señal-ruido de cuantificación (SQNR) se puede calcular a partir de
donde b es el número de bits de cuantificación y el resultado se mide en decibelios (dB). [10] [11]
Por lo tanto, el audio digital de 16 bits que se encuentra en los CD tiene una relación señal/ruido máxima teórica de 98 dB, y el audio digital profesional de 24 bits alcanza un máximo de 146 dB. A partir de 2011 [actualizar], la tecnología de conversión de audio digital está limitada a una relación señal/ruido de aproximadamente 123 dB [12] [13] [14] ( efectivamente 21 bits) debido a las limitaciones del mundo real en el diseño de circuitos integrados . [b] Aún así, esto coincide aproximadamente con el rendimiento del sistema auditivo humano . [17] [18] Se pueden utilizar múltiples convertidores para cubrir diferentes rangos de la misma señal, combinándose para registrar un rango dinámico más amplio a largo plazo, mientras que siguen estando limitados por el rango dinámico del convertidor único a corto plazo, lo que se denomina extensión del rango dinámico . [19] [20]
La resolución de muestras de punto flotante es menos sencilla que la de muestras enteras porque los valores de punto flotante no están espaciados de manera uniforme. En la representación de punto flotante, el espacio entre dos valores adyacentes es proporcional al valor.
La compensación entre los formatos de punto flotante y entero es que el espacio entre valores de punto flotante grandes es mayor que el espacio entre valores enteros grandes de la misma profundidad de bits. Redondear un número de punto flotante grande da como resultado un error mayor que redondear un número de punto flotante pequeño, mientras que redondear un número entero siempre dará como resultado el mismo nivel de error. En otras palabras, los números enteros tienen un redondeo que es uniforme, siempre redondeando el LSB a 0 o 1, y el formato de punto flotante tiene una relación señal-ruido uniforme, el nivel de ruido de cuantificación siempre es de una cierta proporción al nivel de la señal. [21] Un nivel de ruido de punto flotante aumenta a medida que la señal aumenta y disminuye a medida que la señal disminuye, lo que resulta en una variación audible si la profundidad de bits es lo suficientemente baja. [22]
La mayoría de las operaciones de procesamiento de audio digital implican la recuantificación de muestras y, por lo tanto, introducen errores de redondeo adicionales análogos al error de cuantización original introducido durante la conversión de analógico a digital. Para evitar errores de redondeo mayores que el error implícito durante la conversión de analógico a digital, los cálculos durante el procesamiento deben realizarse con precisiones más altas que las muestras de entrada. [23]
Las operaciones de procesamiento de señales digitales (DSP) se pueden realizar con precisión de punto fijo o de punto flotante. En cualquier caso, la precisión de cada operación está determinada por la precisión de las operaciones de hardware utilizadas para realizar cada paso del procesamiento y no por la resolución de los datos de entrada. Por ejemplo, en los procesadores x86 , las operaciones de punto flotante se realizan con precisión simple o doble , y las operaciones de punto fijo con una resolución de 16, 32 o 64 bits. En consecuencia, todo el procesamiento realizado en hardware basado en Intel se realizará con estas restricciones independientemente del formato de origen. [c]
Los procesadores de señales digitales de punto fijo a menudo admiten longitudes de palabra específicas para admitir resoluciones de señal específicas. Por ejemplo, el chip DSP Motorola 56000 utiliza multiplicadores de 24 bits y acumuladores de 56 bits para realizar operaciones de multiplicación-acumulación en dos muestras de 24 bits sin desbordamiento ni truncamiento. [24] En dispositivos que no admiten acumuladores grandes, los resultados de punto fijo pueden truncarse, lo que reduce la precisión. Los errores se acumulan en múltiples etapas de DSP a una velocidad que depende de las operaciones que se realizan. Para los pasos de procesamiento no correlacionados en datos de audio sin un desplazamiento de CC, se supone que los errores son aleatorios con medias cero. Bajo este supuesto, la desviación estándar de la distribución representa la señal de error y el error de cuantificación se escala con la raíz cuadrada del número de operaciones. [25] Se necesitan altos niveles de precisión para algoritmos que involucran procesamiento repetido, como la convolución . [23] También son necesarios altos niveles de precisión en algoritmos recursivos, como los filtros de respuesta de impulso infinito (IIR). [26] En el caso particular de los filtros IIR, el error de redondeo puede degradar la respuesta de frecuencia y causar inestabilidad. [23]
El ruido introducido por el error de cuantificación, incluidos los errores de redondeo y la pérdida de precisión introducidos durante el procesamiento de audio, se puede mitigar añadiendo una pequeña cantidad de ruido aleatorio, llamado dithering , a la señal antes de cuantificar. El dithering elimina el comportamiento de error de cuantificación no lineal, dando lugar a una distorsión muy baja, pero a expensas de un nivel de ruido de fondo ligeramente elevado . El dithering recomendado para audio digital de 16 bits medido utilizando la ponderación de ruido ITU-R 468 es de unos 66 dB por debajo del nivel de alineación , u 84 dB por debajo de la escala completa digital , que es comparable al nivel de ruido del micrófono y de la sala, y por lo tanto de poca consecuencia en audio de 16 bits.
El audio de 24 y 32 bits no requiere tramado, ya que el nivel de ruido del convertidor digital siempre es más alto que el nivel requerido de cualquier tramado que pueda aplicarse. El audio de 24 bits podría codificar teóricamente 144 dB de rango dinámico, y el audio de 32 bits puede alcanzar 192 dB, pero esto es casi imposible de lograr en el mundo real, ya que incluso los mejores sensores y micrófonos rara vez superan los 130 dB. [27]
El dither también se puede utilizar para aumentar el rango dinámico efectivo. El rango dinámico percibido de un audio de 16 bits puede ser de 120 dB o más con dither en forma de ruido , aprovechando la respuesta de frecuencia del oído humano. [28] [29]
El rango dinámico es la diferencia entre la señal más grande y la más pequeña que un sistema puede grabar o reproducir. Sin dither, el rango dinámico se correlaciona con el nivel de ruido de cuantificación. Por ejemplo, la resolución de enteros de 16 bits permite un rango dinámico de aproximadamente 96 dB. Con la aplicación adecuada del dither, los sistemas digitales pueden reproducir señales con niveles inferiores a los que su resolución permitiría normalmente, extendiendo el rango dinámico efectivo más allá del límite impuesto por la resolución. [30] El uso de técnicas como el sobremuestreo y la modelación de ruido puede extender aún más el rango dinámico del audio muestreado al mover el error de cuantificación fuera de la banda de frecuencia de interés.
Si el nivel máximo de la señal es inferior al permitido por la profundidad de bits, la grabación tiene margen de maniobra . El uso de profundidades de bits más altas durante la grabación en estudio puede hacer que haya margen de maniobra disponible mientras se mantiene el mismo rango dinámico. Esto reduce el riesgo de saturación sin aumentar los errores de cuantificación a volúmenes bajos.
El sobremuestreo es un método alternativo para aumentar el rango dinámico del audio PCM sin cambiar la cantidad de bits por muestra. [31] En el sobremuestreo, las muestras de audio se adquieren a un múltiplo de la frecuencia de muestreo deseada. Debido a que se supone que el error de cuantificación se distribuye uniformemente con la frecuencia, gran parte del error de cuantificación se desplaza a frecuencias ultrasónicas y se puede eliminar mediante el convertidor digital a analógico durante la reproducción.
Para un aumento equivalente a n bits adicionales de resolución, una señal debe ser sobremuestreada por
Por ejemplo, un ADC de 14 bits puede producir audio de 16 bits a 48 kHz si se lo opera con un sobremuestreo de 16×, o 768 kHz. Por lo tanto, el PCM sobremuestreado intercambia menos bits por muestra por más muestras para obtener la misma resolución.
El rango dinámico también se puede mejorar con sobremuestreo en la reconstrucción de la señal, en ausencia de sobremuestreo en la fuente. Considere un sobremuestreo de 16× en la reconstrucción. Cada muestra en la reconstrucción sería única en el sentido de que para cada uno de los puntos de muestra originales se insertan dieciséis, todos calculados por un filtro de reconstrucción digital . El mecanismo de aumento de la profundidad de bits efectiva es el que se explicó anteriormente, es decir, la potencia del ruido de cuantificación no se ha reducido, pero el espectro del ruido se ha distribuido en 16× el ancho de banda de audio.
Nota histórica: El estándar de discos compactos fue desarrollado por una colaboración entre Sony y Philips. La primera unidad de consumo de Sony contaba con un DAC de 16 bits; las primeras unidades de Philips tenían DAC duales de 14 bits. Esto confundió al mercado e incluso a los círculos profesionales, porque el PCM de 14 bits permite una relación señal-ruido de 84 dB, 12 dB menos que el PCM de 16 bits. Philips había implementado un sobremuestreo 4× con modelado de ruido de primer orden que teóricamente alcanzaba el rango dinámico completo de 96 dB del formato CD. [32] En la práctica, el Philips CD100 tenía una relación señal-ruido de 90 dB en la banda de audio de 20 Hz a 20 kHz, lo mismo que el CDP-101 de Sony. [33] [34]
El sobremuestreo de una señal da como resultado un ruido de cuantificación igual por unidad de ancho de banda en todas las frecuencias y un rango dinámico que mejora con solo la raíz cuadrada de la relación de sobremuestreo. El modelado de ruido es una técnica que agrega ruido adicional a frecuencias más altas que cancela algunos errores a frecuencias más bajas, lo que resulta en un mayor aumento en el rango dinámico cuando se sobremuestrea. Para el modelado de ruido de orden n , el rango dinámico de una señal sobremuestreada se mejora en 6 n dB adicionales en relación con el sobremuestreo sin modelado de ruido. [35] Por ejemplo, para un audio analógico de 20 kHz muestreado a un sobremuestreo de 4× con modelado de ruido de segundo orden, el rango dinámico aumenta en 30 dB. Por lo tanto, una señal de 16 bits muestreada a 176 kHz tendría una profundidad de bits igual a una señal de 21 bits muestreada a 44,1 kHz sin modelado de ruido.
La modelación de ruido se implementa comúnmente con modulación delta-sigma . Al utilizar la modulación delta-sigma, Direct Stream Digital logra una relación señal/ruido (SNR) teórica de 120 dB en frecuencias de audio utilizando audio de 1 bit con sobremuestreo de 64×.
La profundidad de bits es una propiedad fundamental de las implementaciones de audio digital. Según los requisitos de la aplicación y las capacidades del equipo, se utilizan distintas profundidades de bits para distintas aplicaciones.
La profundidad de bits afecta la velocidad de bits y el tamaño del archivo. Los bits son la unidad básica de datos que se utiliza en informática y comunicaciones digitales. La velocidad de bits se refiere a la cantidad de datos, específicamente bits, transmitidos o recibidos por segundo. En MP3 y otros formatos de audio comprimido con pérdida , la velocidad de bits describe la cantidad de información que se utiliza para codificar una señal de audio. Por lo general, se mide en kb/s . [51]
Los DAC de 24 bits a menudo solo logran un rendimiento aproximado de 16 bits y los mejores alcanzan un rendimiento de 21 bits (ENOB)
Rango dinámico (entrada de −60 dB, ponderación A): 124 dB típico Rango dinámico (entrada de −60 dB, ancho de banda de 20 kHz): 122 dB típico
128dB SNR (mono ponderado 'A' a 48 kHz) 123 dB SNR (estéreo no ponderado a 48 kHz)
Por lo tanto, tu DAC de 32 bits solo podrá generar como máximo 21 bits de datos útiles, y los demás bits quedarán enmascarados por el ruido del circuito.
Todos los chips DAC con capacidad de 32 bits que existen en la actualidad tienen una resolución real inferior a 24 bits.
El rango dinámico de la audición humana es de aproximadamente 120 dB.
Se podría decir que el rango dinámico práctico va desde el umbral de audición hasta el umbral del dolor [130 dB].
Con el uso de tramado moldeado, que mueve la energía del ruido de cuantificación a frecuencias donde es más difícil de escuchar, el rango dinámico efectivo del audio de 16 bits alcanza los 120 dB en la práctica, más de quince veces más profundo que el supuesto de 96 dB. 120 dB es mayor que la diferencia entre un mosquito en algún lugar de la misma habitación y un martillo neumático a un pie de distancia... o la diferencia entre una habitación desierta "insonorizada" y un sonido lo suficientemente fuerte como para causar daño auditivo en segundos. 16 bits son suficientes para almacenar todo lo que podemos escuchar y serán suficientes para siempre.
Uno de los grandes descubrimientos en PCM fue que al agregar un pequeño ruido aleatorio (que llamamos dither) el efecto de truncamiento puede desaparecer. Aún más importante fue la comprensión de que existe un tipo
correcto
de ruido aleatorio para agregar y que cuando se utiliza el dither correcto, la resolución del sistema digital se vuelve
infinita
.