Какова должна быть максимальная длина (длительность) аудиофайла для отправки в Bing Speeh to Text API?
Я сослался на эту документацию. Они упоминали при использовании клиентских библиотек для преобразования речи в текст "длинный аудиопоток (до 10 минут)".
Принимает ли речь к тексту аудиофайл больше 10 минут? Что произойдет, если мы передадим аудиофайл> 10 минут?
И в моем случае мне нужно передать аудиофайл больше 30 минут. Итак, что мы должны сделать для этих ситуаций?
1 ответ
Вы можете разделить ваши более длинные аудиопотоки программно с помощью ffmpeg и передать эти фрагменты в эту клиентскую библиотеку. Вы можете установить этот флажок, чтобы программно разделить длинные аудиопотоки на определенные по времени фрагменты: https://superuser.com/questions/525210/splitting-an-audio-file-into-chunks-of-a-specified-length.
Затем вы можете объединить свой текст из этих кусков, чтобы получить весь текст обратно. Не самый чистый из способов - но что-то, что будет масштабироваться.