Возникла проблема при вызове функции AudioConfig.FromWavFileInput через библиотеку python

Я пытаюсь обработать файл.wav с помощью службы когнитивной речи Azure. Я использую скрипт ниже. Я получаю исключение, которое говорит, что "объект типа" AudioConfig "не имеет атрибута" FromWavFileInput "", когда я пытаюсь настроить файл wav, вызывая AudioConfig.FromWavFileInput (). В документации сказано, что функция существует, по крайней мере, в библиотеке.net. Существует ли FromWaveFileInput для библиотеки Python cognitiveservices-speech? Как я могу обработать аудиофайл с помощью Python?

import azure.cognitiveservices.speech as speechsdk

speechKey = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
service_region = 'eastus2'

#### # Creates an instance of a speech config with specified subscription key and service region.
#### # Replace with your own subscription key and service region (e.g., "westus").
speech_config = speechsdk.SpeechConfig(subscription=speechKey, region=service_region)

audioInput = speechsdk.AudioConfig.FromWavFileInput('RainSpain.wav')

#### # Creates a recognizer with the given settings
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_input=audioInput)

1 ответ

Это работает как шарм

audio_filename = "something.wav"
audio_input =speechsdk.audio.AudioConfig(filename=audio_filename)

Действительно, как вы сказали. Я искал ключевые слова AudioConfig & FromWavFileInput на GitHub репо Azure-Samples/cognitive-services-speech-sdk, нет никаких кодов Python об этом, за исключением Java, C# и C++.

По моему опыту, есть два обходных пути сделать это.

  1. Оберните коды C++ как модуль расширения Python или общайтесь с кодами C++/Java.
  2. Непосредственное использование REST API службы Speech с requests это просто для Python и Azure Speech Service.