Обнаружение голосовой активности (возможно, в Python)
Моя цель - создать программу, которая обнаруживает голосовую активность в аудиофайле. Затем программа должна вырезать исходный аудиофайл, чтобы сохранилась только часть, в которой обнаружен голос. Я исследовал этот вопрос и нашел хорошую библиотеку py-webrtcvad, но я не уверен, как именно реализовать эту функцию. Если у кого-то есть идея, как это сделать, предоставив аудиофайл (какой-то шаблон или указатель на статью, где это делается), я был бы очень признателен. Заранее спасибо! PS Допустим, файл называется
audio.wav