Каков текущий лучший API распознавания речи для ios, чтобы соответствовать нескольким ключевым словам?

Я ищу API для ios (в идеале бесплатно), который позволит сделать некоторое распознавание речи. Я видел несколько сообщений для этого: API распознавания речи iPhone? и бесплатные механизмы распознавания речи для iOS? и после небольшой перспективы я собрал SDK, который выглядит довольно интересно:

Есть ли из тех, кто действительно выделяется из толпы и совсем недавно? как они на самом деле отличаются друг от друга?

3 ответа

Решение

Если вы хотите отслеживать только несколько ключевых слов, вам не следует искать API или службу распознавания речи. Эта задача называется "Определение ключевых слов" и использует другие алгоритмы, нежели распознавание речи. Распознавание речи пытается найти все слова, которые были сказаны, и поэтому он потребляет гораздо больше ресурсов, чем поиск ключевых слов. Поиск ключевых слов только пытается найти несколько выбранных ключевых слов или фраз. Это очень просто и требует меньше ресурсов.

Единственное возможное решение для архивирования этой функциональности - это использование пакета с открытым исходным кодом, такого как OpenEars, работающего на Pocketsphinx.

http://www.politepix.com/openears

У Openears есть плагин Rejecto, который реализует нечто подобное.

В Pocketsphinx недавно также был реализован эффективный поиск ключевых слов с открытым исходным кодом, но он еще не попал в Openers. Он доступен только через pocketsphinx API, вам нужно создать поиск kws и установить целевое слово для поиска. Надеюсь, скоро эта функциональность также появится и в OpenEars.

Nuance предоставляет разработчикам бесплатный доступ (но не для большого объема) - см. http://www.masshightech.com/stories/2011/09/26/daily13-Nuance-tweaks-mobile-dev-program-with-free-access-to-Dragon.html или http://dragonmobile.nuancemobiledeveloper.com/public/index.php?task=home

Услуги Nuance обычно предлагаются на коммерческой основе и требуют предоплаты и комиссии за транзакцию. Интересная новость в том, что они теперь используют свои сервисы в небольших объемах бесплатно для разработчиков. Таким образом, для разработки, тестирования и демонстрации вы, вероятно, можете использовать бесплатные сервисы Nuance. Однако, в отличие от сервисов Google, которые предоставляются бесплатно в Android, если в вашем приложении тысячи пользователей, вам, вероятно, придется платить за услуги Nuance.

Мы разрабатываем CeedVocal SDK с 2008 года, он основан на проектах с открытым исходным кодом Julius & FLite.

Вот некоторый контекст: мы хотели сделать наше приложение (Vocalia) для распознавания речи еще в 2008 году и, в основном, выбрали Julius (колебался с Pocket Sphinx, что тоже неплохо) и оптимизировали формат файла так, чтобы он загружался в 1-2 секунды вместо 20 секунд на оригинальном iPhone. Затем мы должным образом обучили наших собственных акустических моделей на 6 языках. Мы разработали API и в итоге решили предложить его другим разработчикам в качестве SDK.

CeedVocal в основном поддерживает 2 режима работы:

  1. сопоставление слов (или маленьких фраз)
  2. определение ключевых слов

В первом режиме работы он пытается выровнять входящую речь по слову (или фразе) в своем списке допустимых входных данных. Это заставляет вводить заранее известное слово, даже если речь идет о чем-то другом. Точность это хорошо. Во втором режиме работы он попытается выбрать одно из своих ключевых слов в поток речи. Это сложный случай, и он может быть менее точным.

Другие вопросы по тегам