Какой алгоритм используется для извлечения аудио функции в аудиосети Google?

Question

Какой алгоритм используется для извлечения аудио функции в аудиосети Google?

Я начинаю с аудиосета Google. В то время как набор данных является обширным, я нахожу информацию относительно извлечения аудиофункций очень расплывчатой. Сайт упоминает

128-мерные аудио функции, извлеченные с частотой 1 Гц Аудио функции были извлечены с использованием акустической модели, вдохновленной VGG, описанной в Hershey et. al., обучен по предварительной версии YouTube-8M. Эти функции были отредактированы PCA и квантифицированы для совместимости со звуковыми функциями YouTube-8M. Они хранятся в виде файлов TensorFlow Record.

В рамках статьи авторы обсуждают использование спектрограмм mel на кусках 960 мс, чтобы получить представление 96x64. Тогда мне неясно, как они получают представление формата 1x128, используемое в Audioset. Кто-нибудь знает больше об этом??

1

machine-learning audio sound-recognition

Источник

user6362908 19 май '17 в 22:48

1 ответ

Решение

Другие вопросы по тегам machine-learning audio sound-recognition

user8782773 13 авг '18 в 06:34 2018-08-13 06:34 · Accepted Answer · 2018-08-13 06:34

Они используют 96*64 данные в качестве входных данных для измененного VGG сеть. Последний слой VGG является FC-128поэтому его вывод будет 1*128и это причина.

Архитектура VGG можно найти здесь: https://github.com/tensorflow/models/blob/master/research/audioset/vggish_slim.py

2

Источник

user8782773 13 авг '18 в 06:34