Как нарезать / пометить аудио файл во время паузы или паузы в речи? Aubio?

Мне интересно, можете ли вы помочь посоветовать, подходят ли aubio (или любые другие подобные услуги) для нашего бизнеса. К сожалению, я не разработчик и не звукорежиссер, поэтому, пожалуйста, прости мое невежество... но любая обратная связь будет принята с благодарностью!

В настоящее время мы берем аудиофайл, например, 1-часовую запись конференции, и разрезаем его на более короткие фрагменты аудио. Проблема с этим - жестокий способ, которым аудио рассекается; если мы нарежем 60-минутный файл на 5-минутные разделы, каждые 5 минут вполне вероятно, что слово или предложение будет разрезано пополам, что приведет к потере качества, поскольку слушателю будет невозможно расшифровать половину слова / предложения.

Я вижу, что сайт aubio перечисляет одну из своих функций как "сегментирование звукового файла перед каждой его атакой". Мне интересно, можно ли использовать aubio или подобное, чтобы лучше сегментировать наши аудиофайлы? Мы хотели бы иметь возможность вырезать / пометить аудиофайл во время паузы или паузы в речи, а не в середине слова.

Любые советы будут высоко ценится.

С наилучшими пожеланиями Том

1 ответ

Алгоритм обнаружения молчания называется "Обнаружение голосовой активности", если вы ищете в Google, вы можете найти множество реализаций от простых до продвинутых во многих языках программирования. Например, вы можете скачать библиотеку sphinxbase с http://cmusphinx.sourceforge.net/ и использовать встроенный инструмент sphinx_cont_fileseg для сегментирования файла на куски:

   sphinx_cont_fileseg -i file.wav -w

Есть и другие реализации. Насколько я вижу, у aubio нет реализации VAD внутри, хотя вы, вероятно, можете построить ее, используя классы aubio. Aubio, кажется, больше ориентирован на анализ музыки и меньше на речь, и в него не включена реализация VAD.

После того, как вы обнаружили тишину, вы можете приступить к ее выполнению. Хотя стоит найти разработчика.

Другие вопросы по тегам