Las fuentes de información acústica, fonética, fonológica y posiblemente léxica, con los correspondientes procedimientos interpretativos, dan lugar a un módulo conocido como decodificador acústico-fonético (o en ocasiones a un decodificador léxico).
La entrada al decodificador acústico-fonético es la señal vocal convenientemente representada; para ello, es necesario que esta sufra un preproceso de parametrización.
Si el sistema está correctamente diseñado y es repetidamente incapaz de entender al usuario (debido a que no se ha entendido bien la pregunta, un acento cerrado, interferencias o demasiado ruido alrededor), se retirará y desviará la llamada a otro operador.
Gracias a ellos, se pueden abordar gramáticas más complejas y acercarse al Procesamiento de lenguajes naturales.
Por ejemplo, los creadores del sistema comercial para juristas DigaLaw X estiman que dictar con el mismo es de 3 a 4 veces más rápido que mecanografiar, con similar precisión [cita requerida] Este sistema se está utilizando sobre todo en aplicaciones telefónicas: agencias de viajes, atención al cliente, información, etcétera.