Очень низкая точность при использовании открытых ушей для распознавания речи
Я использую открытые уши для распознавания речи в моем приложении. Основной проблемой является точность. В спокойной обстановке точность составляет около 50%, но в шумной обстановке дела идут хуже. Почти ничего не распознается правильно. Я использую файл словаря около 300 слов в настоящее время. Какие области я должен искать, чтобы улучшить точность? До сих пор я не делал никаких изменений в этом.
1 ответ
Разработка приложений распознавания речи требует от вас понимания некоторых основных понятий, лежащих в основе распознавания речи, таких как акустическая модель, грамматика и фонетический словарь. Вы можете узнать больше из учебника CMUSphinx http://cmusphinx.sourceforge.net/wiki/tutorial
Плохая точность - нормальное состояние разработки речевого приложения, есть процесс, который вы можете использовать, чтобы улучшить его и сделать приложение полезным. Процесс следующий:
Соберите образцы речи, которые вы пытаетесь распознать, и создайте базу данных речи, чтобы измерить текущую точность и понять стоящие за ней проблемы.
Попробуйте поиграть с размером словарного запаса, чтобы улучшить разделение между различными голосовыми подсказками. Например, словарь из 10 команд намного легче распознать, чем словарь из 300 команд.
Создайте свое приложение таким образом, чтобы количество вариантов распознавания было меньше, а ответы людей просты. Эта деятельность называется VUI (голосовой дизайн пользовательского интерфейса), и это довольно большая область со множеством блестящих книг и статей в блогах. Вы можете найти некоторые подробности здесь: http://www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765
Попробуйте улучшить акустическую часть вашего приложения. Измените словарь, чтобы соответствовать вашей речи. Адаптируйте акустическую модель в соответствии с акустическими свойствами. См. http://cmusphinx.sourceforge.net/wiki/tutorialadapt для описания процесса адаптации акустической модели.