Поиск ключевых слов не очень хорошо работает с узкополосным речевым сигналом. Как это решить?
Вот что у меня есть:
Акустическая модель (CMU Sphinx) для использования в поиске ключевых слов. Тренируется для речи с частотой дискретизации 16 кГц и хорошо работает. Неэффективно, когда представлен речевым сигналом, дискретизированным с частотой 8 кГц, или речевым сигналом с максимальной шириной полосы 4 кГц и частотой дискретизации = 16 кГц.
Микрофон, который выдает только узкополосный сигнал. Пропускная способность сигнала составляет максимум 4 кКз. Я могу установить частоту дискретизации (API звукового драйвера) на 16 кГц, но полоса пропускания остается той же самой, так как базовые выборки HW на 8 кГц. Не могу изменить это!
Вот результат:
Поиск ключевого слова не срабатывает, когда он представлен речевым сигналом (частота дискретизации 16 кГц), который имеет полосу пропускания всего 4 кГц.
Вот мой вопрос: было бы разумно ожидать, что средство определения ключевого слова будет работать, если я "подделаю его" пропускной способностью, расширяющей узкополосный сигнал до отправки его в средство обнаружения ключевого слова?
Какой самый простой BW-экстендер? (Я ищу что-то, что может быть реализовано быстро).
Спасибо
1 ответ
Есть модели 8 кГц, вы должны использовать их вместо.