En audio digital que utiliza modulación de código de pulso (PCM), la profundidad de bits es la cantidad de bits de información en cada muestra y corresponde directamente a la resolución de cada muestra. Ejemplos de profundidad de bits incluyen Compact Disc Digital Audio , que utiliza 16 bits por muestra, y DVD-Audio y Blu-ray Disc , que pueden admitir hasta 24 bits por muestra.
En implementaciones básicas, las variaciones en la profundidad de bits afectan principalmente el nivel de ruido debido al error de cuantificación ; por lo tanto, la relación señal-ruido (SNR) y el rango dinámico . Sin embargo, técnicas como el tramado , la modelación del ruido y el sobremuestreo pueden mitigar estos efectos sin cambiar la profundidad de bits. La profundidad de bits también afecta la velocidad de bits y el tamaño del archivo.
La profundidad de bits es útil para describir señales digitales PCM . Los formatos que no son PCM, como los que utilizan compresión con pérdida , no tienen profundidades de bits asociadas. [a]
Una señal PCM es una secuencia de muestras de audio digital que contienen los datos que proporcionan la información necesaria para reconstruir la señal analógica original . Cada muestra representa la amplitud de la señal en un momento específico y las muestras están espaciadas uniformemente en el tiempo. La amplitud es la única información almacenada explícitamente en la muestra y normalmente se almacena como un número entero o de punto flotante , codificado como un número binario con un número fijo de dígitos: la profundidad de bits de la muestra , también conocida como palabra. longitud o tamaño de palabra.
La resolución indica el número de valores discretos que se pueden representar en el rango de valores analógicos. La resolución de los números enteros binarios aumenta exponencialmente a medida que aumenta la longitud de la palabra: agregar un bit duplica la resolución, agregar dos la cuadriplica, y así sucesivamente. El número de valores posibles que una profundidad de bits entera puede representar se puede calcular usando 2 n , donde n es la profundidad de bits. [1] Así, un sistema de 16 bits tiene una resolución de 65.536 (2 16 ) valores posibles.
Los datos de audio PCM enteros normalmente se almacenan como números con signo en formato complemento a dos . [2]
Hoy en día, la mayoría de los formatos de archivos de audio y estaciones de trabajo de audio digital (DAW) admiten formatos PCM con muestras representadas por números de punto flotante. [3] [4] [5] [6] Tanto el formato de archivo WAV como el formato de archivo AIFF admiten representaciones de punto flotante. [7] [8] A diferencia de los números enteros, cuyo patrón de bits es una única serie de bits, un número de punto flotante se compone de campos separados cuya relación matemática forma un número. El estándar más común es IEEE 754 , que se compone de tres campos: un bit de signo que representa si el número es positivo o negativo, una mantisa y un exponente que determina un factor de potencia de dos para escalar la mantisa. La mantisa se expresa como una fracción binaria en formatos de punto flotante IEEE base dos. [9]
La profundidad de bits limita la relación señal-ruido (SNR) de la señal reconstruida a un nivel máximo determinado por el error de cuantificación . La profundidad de bits no tiene ningún impacto en la respuesta de frecuencia , que está limitada por la frecuencia de muestreo .
El error de cuantificación introducido durante la conversión de analógico a digital (ADC) se puede modelar como ruido de cuantificación. Es un error de redondeo entre el voltaje de entrada analógico al ADC y el valor digitalizado de salida. El ruido no es lineal y depende de la señal.
En un ADC ideal, donde el error de cuantificación se distribuye uniformemente entre el bit menos significativo (LSB) y donde la señal tiene una distribución uniforme que cubre todos los niveles de cuantificación, la relación señal-ruido de cuantificación (SQNR) se puede calcular a partir de
donde b es el número de bits de cuantificación y el resultado se mide en decibelios (dB). [10] [11]
Por lo tanto, el audio digital de 16 bits que se encuentra en los CD tiene una SNR máxima teórica de 98 dB, y el audio digital profesional de 24 bits alcanza un máximo de 146 dB. A partir de 2011 [actualizar], la tecnología de conversión de audio digital está limitada a una SNR de aproximadamente 123 dB [12] [13] [14] ( efectivamente 21 bits) debido a limitaciones del mundo real en el diseño de circuitos integrados . [b] Aún así, esto coincide aproximadamente con el rendimiento del sistema auditivo humano . [17] [18] Se pueden usar múltiples convertidores para cubrir diferentes rangos de la misma señal, combinándolos para registrar un rango dinámico más amplio a largo plazo, sin dejar de estar limitado por el rango dinámico de un solo convertidor a corto plazo, lo que Se llama extensión del rango dinámico . [19] [20]
La resolución de muestras de punto flotante es menos sencilla que la de muestras enteras porque los valores de punto flotante no están espaciados uniformemente. En la representación de punto flotante, el espacio entre dos valores adyacentes cualesquiera es proporcional al valor.
La desventaja entre los formatos de punto flotante y entero es que el espacio entre valores grandes de punto flotante es mayor que el espacio entre valores enteros grandes de la misma profundidad de bits. Redondear un número de punto flotante grande genera un error mayor que redondear un número de punto flotante pequeño, mientras que redondear un número entero siempre dará como resultado el mismo nivel de error. En otras palabras, los números enteros tienen un redondeo uniforme, siempre redondeando el LSB a 0 o 1, y el formato de punto flotante tiene una SNR uniforme, el nivel de ruido de cuantificación siempre es de cierta proporción con el nivel de la señal. [21] Un piso de ruido de punto flotante aumenta a medida que la señal aumenta y disminuye a medida que la señal cae, lo que resulta en una variación audible si la profundidad de bits es lo suficientemente baja. [22]
La mayoría de las operaciones de procesamiento de audio digital implican la recuantización de muestras y, por lo tanto, introducen errores de redondeo adicionales análogos al error de cuantización original introducido durante la conversión de analógico a digital. Para evitar errores de redondeo mayores que el error implícito durante el ADC, los cálculos durante el procesamiento deben realizarse con precisiones más altas que las muestras de entrada. [23]
Las operaciones de procesamiento de señales digitales (DSP) se pueden realizar con precisión de punto fijo o de punto flotante. En cualquier caso, la precisión de cada operación está determinada por la precisión de las operaciones de hardware utilizadas para realizar cada paso del procesamiento y no por la resolución de los datos de entrada. Por ejemplo, en los procesadores x86 , las operaciones de punto flotante se realizan con precisión simple o doble , y las operaciones de punto fijo con resolución de 16, 32 o 64 bits. En consecuencia, todo el procesamiento realizado en hardware basado en Intel se realizará con estas restricciones independientemente del formato de origen. [C]
Los procesadores de señales digitales de punto fijo a menudo admiten longitudes de palabras específicas para admitir resoluciones de señal específicas. Por ejemplo, el chip DSP Motorola 56000 utiliza multiplicadores de 24 bits y acumuladores de 56 bits para realizar operaciones de acumulación y multiplicación en dos muestras de 24 bits sin desbordamiento ni truncamiento. [24] En dispositivos que no admiten acumuladores grandes, los resultados de punto fijo pueden truncarse, lo que reduce la precisión. Los errores se acumulan a través de múltiples etapas de DSP a un ritmo que depende de las operaciones que se realizan. Para pasos de procesamiento no correlacionados en datos de audio sin compensación de CC, se supone que los errores son aleatorios con media cero. Bajo este supuesto, la desviación estándar de la distribución representa la señal de error, y el error de cuantificación escala con la raíz cuadrada del número de operaciones. [25] Se necesitan altos niveles de precisión para los algoritmos que implican procesamiento repetido, como la convolución . [23] También son necesarios altos niveles de precisión en los algoritmos recursivos, como los filtros de respuesta de impulso infinito (IIR). [26] En el caso particular de los filtros IIR, el error de redondeo puede degradar la respuesta de frecuencia y causar inestabilidad. [23]
El ruido introducido por el error de cuantificación, incluidos los errores de redondeo y la pérdida de precisión introducidos durante el procesamiento de audio, se puede mitigar agregando una pequeña cantidad de ruido aleatorio, llamado dither , a la señal antes de la cuantificación. El difuminado elimina el comportamiento de error de cuantificación no lineal, lo que proporciona una distorsión muy baja, pero a expensas de un ruido de fondo ligeramente elevado . El dither recomendado para audio digital de 16 bits medido usando la ponderación de ruido ITU-R 468 es aproximadamente 66 dB por debajo del nivel de alineación , o 84 dB por debajo de la escala completa digital , lo cual es comparable al nivel de ruido del micrófono y de la sala y, por lo tanto, tiene pocas consecuencias en 16 -bits de audio.
El audio de 24 y 32 bits no requiere interpolación, ya que el nivel de ruido del convertidor digital siempre es más alto que el nivel requerido de cualquier interpolación que pueda aplicarse. En teoría, el audio de 24 bits podría codificar 144 dB de rango dinámico, y el audio de 32 bits puede alcanzar 192 dB, pero esto es casi imposible de lograr en el mundo real, ya que incluso los mejores sensores y micrófonos rara vez superan los 130 dB. [27]
El tramado también se puede utilizar para aumentar el rango dinámico efectivo. El rango dinámico percibido del audio de 16 bits puede ser de 120 dB o más con interpolación en forma de ruido , aprovechando la respuesta de frecuencia del oído humano. [28] [29]
El rango dinámico es la diferencia entre la señal más grande y más pequeña que un sistema puede grabar o reproducir. Sin tramado, el rango dinámico se correlaciona con el ruido de fondo de cuantificación. Por ejemplo, la resolución entera de 16 bits permite un rango dinámico de aproximadamente 96 dB. Con la correcta aplicación del dither, los sistemas digitales pueden reproducir señales con niveles inferiores a los que normalmente permitiría su resolución, ampliando el rango dinámico efectivo más allá del límite impuesto por la resolución. [30] El uso de técnicas como el sobremuestreo y la modelación de ruido puede ampliar aún más el rango dinámico del audio muestreado al mover el error de cuantificación fuera de la banda de frecuencia de interés.
Si el nivel máximo de la señal es inferior al permitido por la profundidad de bits, la grabación tiene headroom . El uso de profundidades de bits más altas durante la grabación de estudio puede hacer que haya espacio libre mientras se mantiene el mismo rango dinámico. Esto reduce el riesgo de recorte sin aumentar los errores de cuantificación a volúmenes bajos.
El sobremuestreo es un método alternativo para aumentar el rango dinámico del audio PCM sin cambiar la cantidad de bits por muestra. [31] En el sobremuestreo, las muestras de audio se adquieren a un múltiplo de la frecuencia de muestreo deseada. Debido a que se supone que el error de cuantificación se distribuye uniformemente con la frecuencia, gran parte del error de cuantificación se desplaza a frecuencias ultrasónicas y el convertidor de digital a analógico puede eliminarlo durante la reproducción.
Para un aumento equivalente a n bits adicionales de resolución, una señal debe ser sobremuestreada por
Por ejemplo, un ADC de 14 bits puede producir audio de 16 bits a 48 kHz si se opera con un sobremuestreo de 16×, o 768 kHz. Por lo tanto, el PCM sobremuestreado intercambia menos bits por muestra por más muestras para obtener la misma resolución.
El rango dinámico también se puede mejorar con sobremuestreo en la reconstrucción de la señal, sin sobremuestreo en la fuente. Considere un sobremuestreo de 16× en la reconstrucción. Cada muestra en la reconstrucción sería única en el sentido de que para cada una de las muestras originales se insertan dieciséis puntos, todos calculados mediante un filtro de reconstrucción digital . El mecanismo de aumento de la profundidad de bits efectiva es el discutido anteriormente, es decir, la potencia del ruido de cuantificación no se ha reducido, pero el espectro de ruido se ha distribuido en 16 veces el ancho de banda de audio.
Nota histórica: el estándar del disco compacto fue desarrollado gracias a una colaboración entre Sony y Philips. La primera unidad de consumo de Sony incluía un DAC de 16 bits; Las primeras unidades de Philips tenían DAC duales de 14 bits. Esto confundió al mercado e incluso a los círculos profesionales, porque el PCM de 14 bits permite una SNR de 84 dB, 12 dB menos que el PCM de 16 bits. Philips había implementado un sobremuestreo 4× con modelado de ruido de primer orden que, en teoría, lograba el rango dinámico completo de 96 dB del formato CD. [32] En la práctica, el Philips CD100 tenía una relación señal-ruido de 90 dB en la banda de audio de 20 Hz-20 kHz, lo mismo que el CDP-101 de Sony. [33] [34]
El sobremuestreo de una señal da como resultado un ruido de cuantificación igual por unidad de ancho de banda en todas las frecuencias y un rango dinámico que mejora solo con la raíz cuadrada de la relación de sobremuestreo. La modelación de ruido es una técnica que agrega ruido adicional en frecuencias más altas, lo que cancela algunos errores en frecuencias más bajas, lo que resulta en un mayor aumento en el rango dinámico cuando se sobremuestrea. Para la conformación de ruido de orden n , el rango dinámico de una señal sobremuestreada se mejora en 6 n dB adicionales en relación con el sobremuestreo sin conformación de ruido. [35] Por ejemplo, para un audio analógico de 20 kHz muestreado con sobremuestreo 4× con modelado de ruido de segundo orden, el rango dinámico se incrementa en 30 dB. Por lo tanto, una señal de 16 bits muestreada a 176 kHz tendría una profundidad de bits igual a una señal de 21 bits muestreada a 44,1 kHz sin formación de ruido.
La modelación del ruido se implementa comúnmente con modulación delta-sigma . Usando modulación delta-sigma, Direct Stream Digital logra una SNR teórica de 120 dB en frecuencias de audio usando audio de 1 bit con sobremuestreo de 64×.
La profundidad de bits es una propiedad fundamental de las implementaciones de audio digital. Dependiendo de los requisitos de la aplicación y las capacidades del equipo, se utilizan diferentes profundidades de bits para diferentes aplicaciones.
La profundidad de bits afecta la velocidad de bits y el tamaño del archivo. Los bits son la unidad básica de datos utilizada en informática y comunicaciones digitales. La tasa de bits se refiere a la cantidad de datos, específicamente bits, transmitidos o recibidos por segundo. En MP3 y otros formatos de audio comprimido con pérdida , la velocidad de bits describe la cantidad de información utilizada para codificar una señal de audio. Generalmente se mide en kb/s . [51]
Los DAC de 24 bits a menudo solo logran un rendimiento de aproximadamente 16 bits y los mejores alcanzan un rendimiento de 21 bits (ENOB).
Rango dinámico (entrada de −60 dB, ponderación A): 124 dB típico Rango dinámico (entrada de −60 dB, ancho de banda de 20 kHz): 122 dB típico
SNR de 128 dB (mono ponderado 'A' a 48 kHz) SNR de 123 dB (estéreo no ponderado a 48 kHz)
Por lo tanto, su DAC de 32 bits solo podrá generar como máximo 21 bits de datos útiles, y los otros bits quedarán enmascarados por el ruido del circuito.
Todos los chips DAC con capacidad de 32 bits que existen hoy en día tienen una resolución real inferior a 24 bits.
El rango dinámico del oído humano es [aproximadamente] 120 dB.
Se podría decir que el rango dinámico práctico va desde el umbral de audición hasta el umbral del dolor [130 dB].
Con el uso de interpolación moldeada, que mueve la energía del ruido de cuantificación a frecuencias donde es más difícil escuchar, el rango dinámico efectivo del audio de 16 bits alcanza los 120 dB en la práctica, más de quince veces más profundo que los 96 dB afirmados.
120 dB es mayor que la diferencia entre un mosquito en algún lugar de la misma habitación y un martillo neumático a un pie de distancia... o la diferencia entre una habitación desierta 'insonorizada' y un sonido lo suficientemente fuerte como para causar daño auditivo en segundos.
16 bits son suficientes para almacenar todo lo que podemos escuchar y serán suficientes para siempre.
Uno de los grandes descubrimientos en PCM fue que añadiendo un pequeño ruido aleatorio (que llamamos dither) el efecto de truncamiento puede desaparecer.
Aún más importante fue darse cuenta de que hay un tipo
correcto
de ruido aleatorio que agregar y que cuando se utiliza el dither correcto, la resolución del sistema digital se vuelve
infinita
.