Какова должна быть максимальная длина (длительность) аудиофайла для отправки в Bing Speeh to Text API?

Я сослался на эту документацию. Они упоминали при использовании клиентских библиотек для преобразования речи в текст "длинный аудиопоток (до 10 минут)".

Принимает ли речь к тексту аудиофайл больше 10 минут? Что произойдет, если мы передадим аудиофайл> 10 минут?

И в моем случае мне нужно передать аудиофайл больше 30 минут. Итак, что мы должны сделать для этих ситуаций?

1 ответ

Вы можете разделить ваши более длинные аудиопотоки программно с помощью ffmpeg и передать эти фрагменты в эту клиентскую библиотеку. Вы можете установить этот флажок, чтобы программно разделить длинные аудиопотоки на определенные по времени фрагменты: https://superuser.com/questions/525210/splitting-an-audio-file-into-chunks-of-a-specified-length.

Затем вы можете объединить свой текст из этих кусков, чтобы получить весь текст обратно. Не самый чистый из способов - но что-то, что будет масштабироваться.

Другие вопросы по тегам