AudioConfig.FromStreamInput в MS когнитивно-поддерживаемых битрейтов?

Question

AudioConfig.FromStreamInput в MS когнитивно-поддерживаемых битрейтов?

Я экспериментировал с непрерывным распознаванием, используя MS Cognitive речь API и UCMA (с SFB), используя 1.1.0 SDK. У меня есть несколько вариантов работы распознавания (с использованием SpeechRecognitionConnector UCMA для доступа к звуку вызова от вызывающего абонента SFB), но я хотел проверить, есть ли другие поддерживаемые битрейты для аудио.

Документация здесь для AudioConfig.FromStreamInput говорит, что

В настоящее время поддерживается только WAV / PCM с 16-битными выборками, частотой дискретизации 16 кГц и одним каналом (Mono).

Первоначально я использовал NAudio повторно сэмплировать звук из вызова SFB (8 кГц) до 16 кГц и передать его на распознаватель. Однако, если я обойду это и отправлю звук 8 кГц на распознаватель, я получу результаты обратно, хотя качество транскрипции кажется хуже, чем когда я пересэмплировал звук.

Мой вопрос тогда, действительно ли поддерживается звук 8 кГц, или это тот случай, когда он принимает поток, но неправильно интерпретирует звук?

0

microsoft-cognitive ucma azure-speech microsoft-speech-platform

Источник

user2660688 06 дек '18 в 14:58

0 ответов

Другие вопросы по тегам microsoft-cognitive ucma azure-speech microsoft-speech-platform