Низкая точность распознавания Pocketsphinx с использованием распознавания фонем на Android, французский язык
Я работаю над проектом, в котором мне нужно интегрировать речевые функции Pocketsphinx в приложение для Android. Фактически, я должен интегрировать функциональность распознавания фонем, предоставляемую Pocketpshinx, которая должна быть способна распознавать фонемы на французском языке, например, реконгнизатор речи должен уметь распознавать слоги (например, "de", "re", "se" и т. Д.).), согласные (например, "m", "f", "g" и т. д.), двойные согласные (например, "kl", "ks", "gr" и т. д.) и гласные (например, "a", "o", "е", и т.д.). Прямо сейчас я интегрировал Pocketsphinx для распознавания фонем, упомянутых выше, но у меня действительно плохие результаты. Например, когда я произношу "o", распознанный результат иногда таков: "SIL ff ei au" (даже я вообще не произносил буквы "f" и "e"), или что-то еще появляется в начале это не произносится. Буквы, которые появляются в начале, не всегда одинаковы (иногда я получаю "ll", "uu" и т. Д.). Но иногда буква, которую я произношу, появляется в начале (например, для "a" я получаю "SIL aa SIL"), но это случается очень редко. Итак, не могли бы вы, ребята, помочь и сообщить мне, в чем может быть проблема и какие-либо предложения по решению этой проблемы? Нужно ли создавать языковую модель и словарь только с теми буквами, которые меня интересуют (так как количество букв фиксировано)? Или, может быть, мне нужно адаптировать акустическую модель или обучить акустической модели?
Заранее большое спасибо!
Leutrim
1 ответ
В вашей модели найдите feat.params и измените значение -cmuinit по вашему выбору. Кроме того, значение "-kws_threshold" на 1e-40f для удаления ложных срабатываний.