Автоматический распознаватель речи с предварительно обученным набором данных

Я хочу иметь автоматический распознаватель речи с обученной платформой, то есть голосовые моды. например:- у меня есть два очень похожих слова, поэтому система должна прослушать полное слово и любой дилакс, проверить его и дать вывод.

Как это сделать.

Я искал, но я совершенно пуст по этому вопросу.

3 ответа

С этой точки зрения, точная настройка с Android API распознавания речи невозможна. вам может понадобиться начать с нуля, чтобы сделать это..

если вы хотите продолжать использовать API распознавания речи Google, то вам нужно выполнить постобработку... это называется NLU (понимание естественного языка) или NLP (обработка естественного языка).

Простая концепция - это любой результат STT (речь в текст), полученный из API Google, вам нужно сгруппировать их в один конечный результат. какой бы ни был твой другой акцент или интонация, чтобы быть одним. или этот процесс имеет ценность, когда ему нужно какое-то содержание, чтобы понять и выполнить какое-то действие, например, какая погода в Сеуле?

Возвращаясь к вашему вопросу, для точной настройки разграничения слов с произношением необходимо, чтобы AM (акустическая модель) и LM (языковая модель) были обучены для того, чтобы такие слова были установлены соответствующим образом. Таким образом, вам нужно обучить модель с нуля или использовать существующую модель с адаптацией акустической модели.

Хорошей отправной точкой с открытым исходным кодом является HTK или Sphinx. Если у вас есть бюджет, чтобы купить, то Уотсон AT&T до сих пор является лучшим инструментом для области распознавания речи.

Я думаю, что вы должны использовать другой подход, это проще, чем пытаться заставить Сфинкса работать.

Используйте алгоритм фонетического сопоставления, такой как soundEx, чтобы определить, произнес ли пользователь с большей вероятностью одно или другое слово. Я бы изменил алгоритм soundEx, чтобы было проще сопоставлять строки. Если ваши слова достаточно разные, это должно сделать хорошую работу.

Вот код, чтобы сделать это

Какую технологию вы хотите использовать? Существуют различные платформы, например, среда Dragonfly ( https://code.google.com/p/dragonfly) или пространство имен System.Speech.Recognition для проектов.net. Что касается мобильных устройств, вы можете ближе познакомиться с API распознавания речи, предлагаемым Google.

Другие вопросы по тегам