Автоматический распознаватель речи с предварительно обученным набором данных
Я хочу иметь автоматический распознаватель речи с обученной платформой, то есть голосовые моды. например:- у меня есть два очень похожих слова, поэтому система должна прослушать полное слово и любой дилакс, проверить его и дать вывод.
Как это сделать.
Я искал, но я совершенно пуст по этому вопросу.
3 ответа
С этой точки зрения, точная настройка с Android API распознавания речи невозможна. вам может понадобиться начать с нуля, чтобы сделать это..
если вы хотите продолжать использовать API распознавания речи Google, то вам нужно выполнить постобработку... это называется NLU (понимание естественного языка) или NLP (обработка естественного языка).
Простая концепция - это любой результат STT (речь в текст), полученный из API Google, вам нужно сгруппировать их в один конечный результат. какой бы ни был твой другой акцент или интонация, чтобы быть одним. или этот процесс имеет ценность, когда ему нужно какое-то содержание, чтобы понять и выполнить какое-то действие, например, какая погода в Сеуле?
Возвращаясь к вашему вопросу, для точной настройки разграничения слов с произношением необходимо, чтобы AM (акустическая модель) и LM (языковая модель) были обучены для того, чтобы такие слова были установлены соответствующим образом. Таким образом, вам нужно обучить модель с нуля или использовать существующую модель с адаптацией акустической модели.
Хорошей отправной точкой с открытым исходным кодом является HTK или Sphinx. Если у вас есть бюджет, чтобы купить, то Уотсон AT&T до сих пор является лучшим инструментом для области распознавания речи.
Я думаю, что вы должны использовать другой подход, это проще, чем пытаться заставить Сфинкса работать.
Используйте алгоритм фонетического сопоставления, такой как soundEx, чтобы определить, произнес ли пользователь с большей вероятностью одно или другое слово. Я бы изменил алгоритм soundEx, чтобы было проще сопоставлять строки. Если ваши слова достаточно разные, это должно сделать хорошую работу.
Какую технологию вы хотите использовать? Существуют различные платформы, например, среда Dragonfly ( https://code.google.com/p/dragonfly) или пространство имен System.Speech.Recognition для проектов.net. Что касается мобильных устройств, вы можете ближе познакомиться с API распознавания речи, предлагаемым Google.