Как настроить "sphinx-train.cfg" для управления командой / акустической модели с одним динамиком?

Я пытаюсь создать единый динамик управления акустической моделью. У меня есть около 100 маленьких предложений, как what is your name, how are you, что я повторял каждое предложение 30 раз, и ставил записанный .wav файлы в такой структуре:

-sentence_one(folder)
1.wav
2.wav
.
30.wav

-sentence_two(folder)
1.wav
2.wav
.
30.wav

Я думаю, что у меня есть около 30-45 минут голосов.wav полностью. Я использовал SRILM для создания языковой модели, затем тренировал акустическую модель, используя поезд сфинкса.(.cont), но моя точность низкая!

Я пытался изменить сенонесы с 200 на 2000, но не смог помочь! Также пытался использовать 8 и 16 для плотности, но тоже не помогло! Итак, что является лучшей конфигурацией для этой цели? Должен ли я записывать больше звуков и повторять свои предложения более 30 раз (до скольких раз?)?

0 ответов

Другие вопросы по тегам