IBM Watson речь в текстовом формате WAV

Как IBM watson речь к тексту требует форматирования файла wav? Я попытался отправить Уотсону wav-файл, записанный с помощью MediaRecorder в javascript, но я получаю сообщение об ошибке "" невозможно перекодировать поток данных audio/wav -> audio/x-float-array ". Я создал wav-файл из медиа-рекордера, создание BLOB-файла, а затем файла.wav. Я могу воспроизвести свой файл.wav. Я также могу отправить сообщение watson с другим файлом wav, который я не создал, для watson, и оно транскрибирует аудио просто хорошо.

Я также попытался уменьшить звук с 32 бит на семпл до 16 бит на семпл. Я понимаю, что IBM watson требует 16 бит на семпл, но я предполагаю, что записи mediaRecorder по 32 бита на семпл?? Вот мой код для этого.

   var output = new DataView(new ArrayBuffer(arrayBuffer.byteLength * 2));
                for (var i = 0; i < arrayBuffer.byteLength; i++) {
                var multiplier = arrayBuffer[i] < 0 ? 0x8000 : 0x7fff; // 16-bit signed range is -32768 to 32767
                output.setInt16(i * 2, (arrayBuffer[i] * multiplier) | 0, true); // index, value ("| 0" = convert to 32-bit int, round towards 0), littleEndian.
                 }

где arrayBuffer создан из моего блоба. Когда я преобразовываю вывод обратно в файл, я получаю ту же ошибку, что и выше.

0 ответов

Другие вопросы по тегам