Поиск ключевых слов не очень хорошо работает с узкополосным речевым сигналом. Как это решить?

Вот что у меня есть:

  1. Акустическая модель (CMU Sphinx) для использования в поиске ключевых слов. Тренируется для речи с частотой дискретизации 16 кГц и хорошо работает. Неэффективно, когда представлен речевым сигналом, дискретизированным с частотой 8 кГц, или речевым сигналом с максимальной шириной полосы 4 кГц и частотой дискретизации = 16 кГц.

  2. Микрофон, который выдает только узкополосный сигнал. Пропускная способность сигнала составляет максимум 4 кКз. Я могу установить частоту дискретизации (API звукового драйвера) на 16 кГц, но полоса пропускания остается той же самой, так как базовые выборки HW на 8 кГц. Не могу изменить это!

Вот результат:

Поиск ключевого слова не срабатывает, когда он представлен речевым сигналом (частота дискретизации 16 кГц), который имеет полосу пропускания всего 4 кГц.

Вот мой вопрос: было бы разумно ожидать, что средство определения ключевого слова будет работать, если я "подделаю его" пропускной способностью, расширяющей узкополосный сигнал до отправки его в средство обнаружения ключевого слова?

Какой самый простой BW-экстендер? (Я ищу что-то, что может быть реализовано быстро).

Спасибо

1 ответ

Есть модели 8 кГц, вы должны использовать их вместо.

https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/cmusphinx-en-us-ptm-8khz-5.2.tar.gz

Другие вопросы по тегам