Настройка Google Cloud Speech API для записи интервью
У меня есть более 100 часов аудио, связанных с видео-интервью для документального фильма, который необходимо транскрибировать в текст - надеюсь, с какими-то маркерами временного кода каждые 30 секунд или около того, чтобы видео можно было легко сопоставить с текстом в редактировании. люкс.
Файлы в формате BWAV 24 бит 96 кГц и WAV 16 бит 48 кГц и длятся от 20 минут до 2 часов.
Какие ресурсы необходимо настроить в виртуальной машине для выполнения этого вида деятельности? Я подозреваю, что это потребует больших вычислительных ресурсов, поэтому виртуальной машине может потребоваться 32 ядра и достаточное количество памяти, но нет необходимости в ответе в реальном времени, поэтому все в порядке, если приоритеты низкие, а обработка файла занимает несколько часов. Мой бюджет минимален - 300 долларов - это максимум, что мы можем себе позволить для всех файлов (это одна из причин, по которой мы не отправляем эти файлы в службу транскрипции по цене 75 долларов в час).
У меня уже есть аккаунт Cloud Platform, но я никогда не использовал его. Нет смысла в том, чтобы я колебался, если кто-то уже сделал что-то подобное и может мне помочь.