Как использовать Google Speech API для распознавания смешанных языков с переключением кодов?
Обычно люди используют свой родной язык + английский для общения. Мне нужен Google API для распознавания обоих языков в образце речи.
Например: "aaj ka weather kaisa hai" это предложение содержит языки хинди (hi-IN) и английский (en-IN)
Как настроить параметры API для распознавания смешанной или многоязычной речи с переключением кодов?
2 ответа
Вы не можете смешивать язык.
Распознавание речи примерно содержит 3 части -> Акустическая модель, Языковая модель и словарь.
Акустическая модель является результатом обучения данных, содержит связь между звуковым сигналом и фонетическим
Словарь содержит слова и то, как они произносятся, например, слово TOP произносится как "T AH P" в общем словаре распознавания речи.
Языковая модель - это связь между словами для создания предложений, например, слово "я" связано с "я", поэтому распознаватель речи очень редко (или никогда) будет давать результат "я есть" или "я есть".
У каждого языка есть своя собственная акустическая модель (фонетическая), словарь (слова) и языковая модель (предложения), поэтому мы можем просто смешать их.
Вопрос: это все еще возможно?
Ответ: ДА!
Вы можете создать свой собственный язык (в данном случае хинди + английский), используя множество инструментов, один из которых я уже пробовал, называется CMU Sphinx / Pocket Sphinx. Вы можете создать свою собственную модель, обучить ее и сделать из нее словарь. Это будет много работы, но вы можете настроить все, что вам нужно для распознавания речи.
Ссылка для реализации любой платформы: https://github.com/cmusphinx
Google речевой API не работает таким образом, и он не был разработан для смешанного языка. Существуют специализированные API-интерфейсы, разработанные несколькими компаниями в Индии для случаев хинди + английский, они прекрасно распознают такой смешанный язык.