IBM Речь к тексту Буквенно-цифровая строка распознавания?

Пытаясь заставить Speech to Text (приложение IBM Voice Gateway IVR) распознавать буквенно-цифровые символьные строки, мне интересно, смогу ли я создать собственную грамматику или сущность, которая ограничивала бы STT распознаванием только отдельных букв и цифр, исключая слова в целом. Например, вот типичная строка: 20Y0H8C. Уотсон возвращается со словами и цифрами, например, "два" вместо "2". Цифровые строки работают нормально. Я понимаю, что распознавание писем проблематично с типичным ASR, но я надеюсь, что Уотсон справится с этой задачей. Я заметил, что нет никаких системных объектов для буквенно-цифровых символов. Любые предложения очень ценятся.

1 ответ

В этом случае установите smart_formatting в true,

Параметр smart_formatting преобразует даты, время, серии цифр и чисел, номера телефонов, значения валют и интернет-адреса в более обычные представления в окончательной транскрипции запроса на распознавание. Преобразование делает стенограмму более читабельной и обеспечивает лучшую последующую обработку результатов транскрипции. Вы устанавливаете для параметра значение true, чтобы включить интеллектуальное форматирование, как в следующем примере; по умолчанию параметр имеет значение false и интеллектуальное форматирование не выполняется.

Проверьте:

curl -X POST -u {username}:{password}
--header "Content-Type: audio/flac"
--data-binary @{path}audio-file.flac
"https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?smart_formatting=true"

Результат:

Голос: количество один миллион сто один

Результат: количество 1000101

Проверьте официальную документацию IBM.

Примечание. Функция интеллектуального форматирования в настоящее время является бета-функцией и доступна только для английского языка США.

Другие вопросы по тегам