AudioConfig.FromStreamInput в MS когнитивно-поддерживаемых битрейтов?
Я экспериментировал с непрерывным распознаванием, используя MS Cognitive речь API и UCMA (с SFB), используя 1.1.0 SDK. У меня есть несколько вариантов работы распознавания (с использованием SpeechRecognitionConnector UCMA для доступа к звуку вызова от вызывающего абонента SFB), но я хотел проверить, есть ли другие поддерживаемые битрейты для аудио.
Документация здесь для AudioConfig.FromStreamInput говорит, что
В настоящее время поддерживается только WAV / PCM с 16-битными выборками, частотой дискретизации 16 кГц и одним каналом (Mono).
Первоначально я использовал NAudio
повторно сэмплировать звук из вызова SFB (8 кГц) до 16 кГц и передать его на распознаватель. Однако, если я обойду это и отправлю звук 8 кГц на распознаватель, я получу результаты обратно, хотя качество транскрипции кажется хуже, чем когда я пересэмплировал звук.
Мой вопрос тогда, действительно ли поддерживается звук 8 кГц, или это тот случай, когда он принимает поток, но неправильно интерпретирует звук?