Обнаружение команд в Deep Neural Networks с использованием Kaldi без привязки к языку
Кто-нибудь видел примеры того, как настроить простое приложение для обучения dnet, а затем использовать его для распознавания ограниченного числа голосовых команд без привязки к определенному языку? Я считаю, что Kaldi API достаточно мощен для этого, но не хватает документации.
1 ответ
1) Вы берете существующую модель DNN или обучаете ее самостоятельно. Вы можете использовать эксперимент Тедлиума от Kaldi, он бесплатный. Не имеет значения, подходит ли модель для английского языка, она будет работать и для других языков.
2) Вы извлекаете постеры DNN из обеих обучающих фраз. Для этого можно использовать инструмент nnet3-am-compute. Он принимает модель DNN и возвращает фонетические или государственные постеры для каждого кадра.
3) Вы реализуете алгоритм DTW для сравнения постеров DNN. Эту часть вы должны сделать сами, она не реализована в Kaldi.
Связанные документы, описывающие алгоритм: