Audio digital

También se pueden hacer cuantificaciones no lineales, como es el caso de las cuantificaciones logarítmicas como la Ley Mu o la Ley A, que, a modo de ejemplo, aún usando 8 bits funcionan perceptualmente como 10 bits lineales para señales de baja amplitud en promedio, como la voz humana, por ejemplo.

Una vez que la relación señal a ruido de cuantificación que permite un proceso de cuantificación dado excede la relación señal a ruido máxima del material sonoro que se pretende cuantificar, esta podrá ser cuantificada totalmente sin pérdidas en su rango dinámico.

No supone mejora alguna, ni siquiera mensurable, ya que solo serviría para registrar el ruido con más bits, es decir, más bits inútiles cuyo valor dependerá exclusivamente del azar o, según se ajuste la ganancia, para dejar los bits más significativos a cero en todas las muestras (o una combinación de ambas cosas).

Si un material sonoro a digitalizar "cabe" en 10 bits por muestra, cuantificar a 14 bits (o 20) no hace más fiel su reconstrucción posterior ni, consecuentemente, es posible percibir diferencias subjetivas que no resulten de la sugestión.

Los archivos de audio digital almacenan toda la información que ocurra en el tiempo, el tamaño del archivo no varía así contenga 'silencio' o sonidos muy complejos.

Los formatos PCM, Pulse Coded Modulation, contienen toda la información que salió del convertidor analógico a digital sin ninguna omisión y por eso tienen la mejor calidad.

Dentro de esta categoría se encuentran los formatos WAV, AIFF, SU, AU y RAW (crudo).

La diferencia principal que tienen estos formatos es el encabezado, alrededor de 1000 bytes al comienzo del archivo.

Para usar menos memoria que los archivos PCM existen formatos de sonido comprimidos, como por ejemplo el MP3, AAC y Ogg.

El archivo MIDI no almacena «sonido grabado», sino las indicaciones para que un sintetizador o cualquier otro dispositivo MIDI «interprete» una serie de notas u otras acciones (control de un mezclador, etc.).

Muestreo digital de una señal de audio.
Ejemplo de reconstrucción de una señal de 14,7 kHz (línea gris discontinua) con solo cinco muestras. Cada ciclo se compone de solo 3 muestras a 44 100 muestras por segundo. La reconstrucción teórica resulta de la suma ponderada de la función de interpolación g(t) y sus versiones correspondientes desplazadas en el tiempo g(t-nT) con , donde los coeficientes de ponderación son las muestras x(n) . En esta imagen cada función de interpolación está representada con un color (en total, cinco) y están ponderadas al valor de su correspondiente muestra (el máximo de cada función pasa por un punto azul que representa la muestra).