Как использовать Google Speech API для распознавания смешанных языков с переключением кодов?

Обычно люди используют свой родной язык + английский для общения. Мне нужен Google API для распознавания обоих языков в образце речи.

Например: "aaj ka weather kaisa hai" это предложение содержит языки хинди (hi-IN) и английский (en-IN)

Как настроить параметры API для распознавания смешанной или многоязычной речи с переключением кодов?

2 ответа

Вы не можете смешивать язык.

Распознавание речи примерно содержит 3 части -> Акустическая модель, Языковая модель и словарь.

Акустическая модель является результатом обучения данных, содержит связь между звуковым сигналом и фонетическим

Словарь содержит слова и то, как они произносятся, например, слово TOP произносится как "T AH P" в общем словаре распознавания речи.

Языковая модель - это связь между словами для создания предложений, например, слово "я" связано с "я", поэтому распознаватель речи очень редко (или никогда) будет давать результат "я есть" или "я есть".

У каждого языка есть своя собственная акустическая модель (фонетическая), словарь (слова) и языковая модель (предложения), поэтому мы можем просто смешать их.

Вопрос: это все еще возможно?

Ответ: ДА!

Вы можете создать свой собственный язык (в данном случае хинди + английский), используя множество инструментов, один из которых я уже пробовал, называется CMU Sphinx / Pocket Sphinx. Вы можете создать свою собственную модель, обучить ее и сделать из нее словарь. Это будет много работы, но вы можете настроить все, что вам нужно для распознавания речи.

Ссылка для реализации любой платформы: https://github.com/cmusphinx

Google речевой API не работает таким образом, и он не был разработан для смешанного языка. Существуют специализированные API-интерфейсы, разработанные несколькими компаниями в Индии для случаев хинди + английский, они прекрасно распознают такой смешанный язык.

Другие вопросы по тегам