Kaldi es un kit de herramientas de reconocimiento de voz de código abierto escrito en C++ para reconocimiento de voz y procesamiento de señales , disponible gratuitamente bajo la licencia Apache v2.0.
Kaldi tiene como objetivo proporcionar un software que sea flexible y extensible, [2] y esté destinado a ser utilizado por investigadores de reconocimiento automático de voz (ASR) para construir un sistema de reconocimiento.
Admite transformaciones lineales, MMI , entrenamiento discriminativo MMI y MCE mejorado , entrenamiento discriminativo de espacio de características y redes neuronales profundas . [3]
Kaldi es capaz de generar características como mfcc , fbank , fMLLR , etc. Por lo tanto, en investigaciones recientes sobre redes neuronales profundas, un uso popular de Kaldi es preprocesar formas de onda sin procesar en características acústicas para modelos neuronales de extremo a extremo.
Kaldi se ha incorporado como parte del desafío de reconocimiento y separación de voz de CHiME en varios eventos sucesivos. [4] [5] [6] El software se desarrolló inicialmente como parte de un taller de 2009 en la Universidad Johns Hopkins . [7]
Kaldi debe su nombre al legendario pastor de cabras etíope Kaldi, de quien se dice que descubrió la planta del café . [8]