Обнаружение команд в Deep Neural Networks с использованием Kaldi без привязки к языку

Кто-нибудь видел примеры того, как настроить простое приложение для обучения dnet, а затем использовать его для распознавания ограниченного числа голосовых команд без привязки к определенному языку? Я считаю, что Kaldi API достаточно мощен для этого, но не хватает документации.

1 ответ

1) Вы берете существующую модель DNN или обучаете ее самостоятельно. Вы можете использовать эксперимент Тедлиума от Kaldi, он бесплатный. Не имеет значения, подходит ли модель для английского языка, она будет работать и для других языков.

2) Вы извлекаете постеры DNN из обеих обучающих фраз. Для этого можно использовать инструмент nnet3-am-compute. Он принимает модель DNN и возвращает фонетические или государственные постеры для каждого кадра.

3) Вы реализуете алгоритм DTW для сравнения постеров DNN. Эту часть вы должны сделать сами, она не реализована в Kaldi.

Связанные документы, описывающие алгоритм:

Исследование подхода на основе поиска по ключевым словам на основе нейронной сети для персонализированного обнаружения слова пробуждения на китайском (мандаринском) языке

Обнаружение разговорного термина по каждому примеру запроса с использованием фонетических шаблонов апостериграммы

Другие вопросы по тегам