Лучший подход для сравнения распознанной речи с известным текстом

Учитывая известную рукопись (текст), которую, я ожидаю, пользователь прочитает (более или менее точно), каков наилучший подход для распознавания прогресса пользователя в рукописи?

Пока я ищу конкретное решение для iOS, меня также интересует более общий ответ.

iOS предоставляет систему распознавания речи под названием " Речь", которую я могу использовать для распознавания любой речи. Мой текущий подход заключается в использовании строковых результатов этой платформы, чтобы сопоставить их с рукописью. Тем не менее, мне кажется, что в этом есть некоторые накладные расходы, и это сэкономит ресурсы и повысит точность, когда я впервые напишу распознаватель речи ожидаемыми словами, чтобы он "знал", что слушать.

Например, когда следующее слово в рукописи - "рыба", мне не нужен распознаватель речи для поиска во всем словаре английского языка слова, которое лучше всего соответствует записанному аудио - мне нужно только получить значение вероятности, насколько вероятно это то, что пользователь просто сказал "рыба".

Я думаю, что это очень похоже на поиск ключевых слов, только то, что я вижу не только несколько ключевых слов, но и слова во всей рукописи.

К сожалению, я не смог найти такой API на iOS. Есть ли лучший подход для достижения этого "отслеживания речи", чем описанный выше?

1 ответ

Тем не менее, мне кажется, что в этом есть некоторые накладные расходы, и это сэкономит ресурсы и повысит точность, когда я впервые напишу распознаватель речи ожидаемыми словами, чтобы он "знал", что слушать.

Возможно, так и будет, но речевая структура не дает вам возможности сделать это, поэтому вы не можете.

Другие вопросы по тегам