Повышение точности Google Cloud Speech API

В настоящее время я записываю аудио с веб-страницы на моем компьютере Mac OS и запускаю его через облачный речевой API для создания стенограммы. Однако результаты не настолько точны, и в результатах есть куски пропущенных слов.

Есть ли какие-либо шаги, которые помогли бы мне дать более точные результаты?

Вот шаги, которые я предпринимаю для преобразования аудио в текст:

  1. Используйте Soundflower для передачи звука с моей звуковой карты на микрофон.
  2. Воспроизвести аудио с сайта
  3. Используйте плеер QuickTime для записи аудио, которое сохраняется в виде файла.m4a.
  4. Используйте инструмент командной строки ffmpeg для преобразования файла.m4a в.flac, а также объедините 2 аудиоканала (стерео) в 1 аудиоканал (моно).
  5. Загрузите файл.flac в Google Cloud Storage. Файл имеет частоту дискретизации 44100 Гц и имеет 24 бита на выборку.
  6. Используйте API longRunningRecognize через клиентскую библиотеку node.js, указывая файл в облачном хранилище Google.

1 ответ

Со стороны Speech-to-Text API, я бы посоветовал вам убедиться, что вы следуете рекомендациям Best Practices, таким как избежать чрезмерного фонового шума и одновременного разговора нескольких людей, поскольку эти аспекты могут повлиять на распознавание службы.

Я думаю, что у вас хорошая частота дискретизации и свободные кодеки; Однако имейте в виду, что предварительная обработка звука может повлиять на качество звука. В этих случаях предпочтительно избегать повторной выборки, тем не менее, вы можете попробовать использовать разные аудиоформаты, чтобы проверить, какие из них дают наиболее точные результаты.

Кроме того, вы можете использовать свойства языка languageCode и подсказки фраз, которые обычно используются для повышения точности распознавания.

Другие вопросы по тегам