Google Cloud Speech API слово Подсказки

Можете ли вы привести и пример использования словесных подсказок в Google Cloud Speech API. Я пытаюсь использовать Rest API executor для brook.flac. Я ввожу фразу "Бруклин" (вместо "Бруклин"), но результат тот же. Они вообще работают?

1 ответ

С https://cloud.google.com/speech/docs/basics

Для любой заданной задачи распознавания вы также можете передать speechContext (типа SpeechContext), который предоставляет информацию для помощи в обработке данного аудио. В настоящее время контекст может содержать список фраз, которые действуют как "подсказки" для распознавателя; Эти фразы могут повысить вероятность того, что такие слова или фразы будут распознаны.

Вы можете использовать эти подсказки фразы несколькими способами:

Повысьте точность определенных слов и фраз, которые могут быть чрезмерно представлены в ваших аудиоданных. Например, если пользователь обычно произносит конкретные команды, вы можете указать их как подсказки фраз. Такие дополнительные фразы могут быть особенно полезны, если поставляемый звук содержит шум или содержащаяся речь не очень четкая. Добавьте дополнительные слова в словарь задачи распознавания. Cloud Speech API включает в себя очень большой словарный запас. Однако, если собственные имена или слова, относящиеся к домену, отсутствуют в словаре, вы можете добавить их к фразам, указанным в speechContext ваших запросов. Фразы могут быть представлены как в виде небольших групп слов, так и в виде отдельных слов. (См. Ограничения содержимого для определения количества и размера этих фраз.) Когда подсказки представлены в виде словосочетаний, подсказки повышают вероятность распознавания этих слов в последовательности, а также, в меньшей степени, повышают вероятность распознавания частей фраза, в том числе отдельные слова.

Например, этот файл shwazil_hoful.flac содержит некоторые выдуманные слова. Если распознавание выполняется без предоставления этих словарных слов, распознаватель не возвратит желаемую расшифровку, а вместо этого возвратит слова, которые есть в словаре, такие как: "это - ласточка целый день".

{
  "config": {
    "encoding":"FLAC",
    "sampleRateHertz": 16000,
    "languageCode":"en-US"
  },
  "audio":{
    "uri":"gs://speech-demo/shwazil_hoful.flac"
  }
}

Тем не менее, когда эти слова из словаря поставляются с запросом распознавания, распознаватель возвращает желаемую расшифровку: "это день Швазил hoful".

{
  "config": {
    "encoding":"FLAC",
    "sampleRateHertz": 16000,
    "languageCode":"en-US",
    "speechContexts": {
      "phrases":["hoful","shwazil"]
     }
  },
  "audio":{
    "uri":"gs://speech-demo/shwazil_hoful.flac"
  }
}

Альтернативно, если определенные слова обычно произносятся вместе во фразе, они могут быть сгруппированы вместе, что может еще больше повысить уверенность в том, что они будут распознаны.

{
  "config": {
    "encoding":"FLAC",
    "sampleRateHertz": 16000,
    "languageCode":"en-US",
    "speechContexts": {
      "phrases":["shwazil hoful day"]
     }
  },
  "audio":{
    "uri":"gs://speech-demo/shwazil_hoful.flac"
  }
}

В общем, будьте осторожны при предоставлении речевых контекстных подсказок. Лучшая точность распознавания может быть достигнута, ограничивая фразы только теми, о которых говорят. Например, если имеется несколько состояний диалога или режимов работы устройства, предоставляйте только подсказки, которые соответствуют текущему состоянию, а не всегда указывайте подсказки для всех возможных состояний.

Другие вопросы по тегам