Как настроить "sphinx-train.cfg" для управления командой / акустической модели с одним динамиком?
Я пытаюсь создать единый динамик управления акустической моделью. У меня есть около 100 маленьких предложений, как what is your name
, how are you
, что я повторял каждое предложение 30 раз, и ставил записанный .wav
файлы в такой структуре:
-sentence_one(folder)
1.wav
2.wav
.
30.wav
-sentence_two(folder)
1.wav
2.wav
.
30.wav
Я думаю, что у меня есть около 30-45 минут голосов.wav полностью. Я использовал SRILM для создания языковой модели, затем тренировал акустическую модель, используя поезд сфинкса.(.cont)
, но моя точность низкая!
Я пытался изменить сенонесы с 200 на 2000, но не смог помочь! Также пытался использовать 8 и 16 для плотности, но тоже не помогло! Итак, что является лучшей конфигурацией для этой цели? Должен ли я записывать больше звуков и повторять свои предложения более 30 раз (до скольких раз?)?