Алгоритм очень простого распознавания голоса / речи
Я пишу игру для Google Glass, но, к сожалению, API SpeechRecognizer недоступен в текущих сборках Google Glass GDK.
Поэтому я думал о реализации алгоритма для очень простого распознавания голоса. Допустим, я хочу узнать только: "Да" и "Нет".
Знаете ли вы какой-либо пример кода или какие-либо полезные ресурсы, которые помогут мне в реализации этого?
Это так сложно, что я должен отказаться от идеи и использовать большие фреймворки, такие как CMUSphinx?
Как насчет распознавания: вверх, вниз, вправо, влево или цифры от 1 до 10?
1 ответ
Как я знаю, здесь часто используется переход в частотную область путем быстрого преобразования Фурье (БПФ) и его анализа. Также нужен словарь произнесенных слов для частотной корреляции.
Пожалуйста, смотрите эту ссылку:
CMU Sphinx имеет реализацию Java.
У Дэвида Вагнера есть хорошая статья и реализация Matlab.
PS Ох, если вы говорите по-русски, почему вы не читаете эту статью - очень просто, с примерами Java.
PPS Честно говоря, я никогда не использую этот фреймворк, но если у вас есть только поверхностные знания о распознавании речи, надежный и простой способ - это использовать существующие законченные решения, такие как фреймворки или библиотеки, в противном случае вам нужно потратить время, чтобы получить необходимый порог знаний. В этом случае вы можете прочитать эту статью.