Какой алгоритм используется для извлечения аудио функции в аудиосети Google?
Я начинаю с аудиосета Google. В то время как набор данных является обширным, я нахожу информацию относительно извлечения аудиофункций очень расплывчатой. Сайт упоминает
128-мерные аудио функции, извлеченные с частотой 1 Гц Аудио функции были извлечены с использованием акустической модели, вдохновленной VGG, описанной в Hershey et. al., обучен по предварительной версии YouTube-8M. Эти функции были отредактированы PCA и квантифицированы для совместимости со звуковыми функциями YouTube-8M. Они хранятся в виде файлов TensorFlow Record.
В рамках статьи авторы обсуждают использование спектрограмм mel на кусках 960 мс, чтобы получить представление 96x64. Тогда мне неясно, как они получают представление формата 1x128, используемое в Audioset. Кто-нибудь знает больше об этом??
1 ответ
Они используют 96*64
данные в качестве входных данных для измененного VGG
сеть. Последний слой VGG
является FC-128
поэтому его вывод будет 1*128
и это причина.
Архитектура VGG
можно найти здесь: https://github.com/tensorflow/models/blob/master/research/audioset/vggish_slim.py