Какой алгоритм используется для извлечения аудио функции в аудиосети Google?

Я начинаю с аудиосета Google. В то время как набор данных является обширным, я нахожу информацию относительно извлечения аудиофункций очень расплывчатой. Сайт упоминает

128-мерные аудио функции, извлеченные с частотой 1 Гц Аудио функции были извлечены с использованием акустической модели, вдохновленной VGG, описанной в Hershey et. al., обучен по предварительной версии YouTube-8M. Эти функции были отредактированы PCA и квантифицированы для совместимости со звуковыми функциями YouTube-8M. Они хранятся в виде файлов TensorFlow Record.

В рамках статьи авторы обсуждают использование спектрограмм mel на кусках 960 мс, чтобы получить представление 96x64. Тогда мне неясно, как они получают представление формата 1x128, используемое в Audioset. Кто-нибудь знает больше об этом??

1 ответ

Решение

Они используют 96*64 данные в качестве входных данных для измененного VGG сеть. Последний слой VGG является FC-128поэтому его вывод будет 1*128и это причина.

Архитектура VGG можно найти здесь: https://github.com/tensorflow/models/blob/master/research/audioset/vggish_slim.py

Другие вопросы по тегам