Поиск ключевых слов не очень хорошо работает с узкополосным речевым сигналом. Как это решить?

Question

Поиск ключевых слов не очень хорошо работает с узкополосным речевым сигналом. Как это решить?

Вот что у меня есть:

Акустическая модель (CMU Sphinx) для использования в поиске ключевых слов. Тренируется для речи с частотой дискретизации 16 кГц и хорошо работает. Неэффективно, когда представлен речевым сигналом, дискретизированным с частотой 8 кГц, или речевым сигналом с максимальной шириной полосы 4 кГц и частотой дискретизации = 16 кГц.
Микрофон, который выдает только узкополосный сигнал. Пропускная способность сигнала составляет максимум 4 кКз. Я могу установить частоту дискретизации (API звукового драйвера) на 16 кГц, но полоса пропускания остается той же самой, так как базовые выборки HW на 8 кГц. Не могу изменить это!

Вот результат:

Поиск ключевого слова не срабатывает, когда он представлен речевым сигналом (частота дискретизации 16 кГц), который имеет полосу пропускания всего 4 кГц.

Вот мой вопрос: было бы разумно ожидать, что средство определения ключевого слова будет работать, если я "подделаю его" пропускной способностью, расширяющей узкополосный сигнал до отправки его в средство обнаружения ключевого слова?

Какой самый простой BW-экстендер? (Я ищу что-то, что может быть реализовано быстро).

Спасибо

1

signal-processing speech-recognition cmusphinx

Источник

user1884325 15 июл '16 в 03:00

1 ответ

Другие вопросы по тегам signal-processing speech-recognition cmusphinx

user432021 15 июл '16 в 07:44 2016-07-15 07:44 · Answer 1 · 2016-07-15 07:44

Есть модели 8 кГц, вы должны использовать их вместо.

https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/cmusphinx-en-us-ptm-8khz-5.2.tar.gz

1

Источник

user432021 15 июл '16 в 07:44