Как размер функции mfcc влияет на рецидивирующую нейронную сеть

Итак, я изучаю машинное обучение и хотел узнать, как размер функции mfcc влияет на RNN (Recurent Neural Network)?

С помощью librosa я извлек mfcc, а затем дельта-коэффициенты, и после этого я получил массив измерений [13, sound_length]

Код извлечения mfcc и дельта-коэффициентов с python: (y - данные звукового файла, sr - длина y)

mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
mfcc_delta = librosa.feature.delta(mfcc, axis=0, order=1)

Так что теоретически, если я хочу обучить сеть с такими данными и данными, где n_mfcc=39. Кто будет лучше и почему? (Игнорировать все остальные гиперпараметры) Я просто хочу знать теорию о том, как этот параметр влияет на RNN.

1 ответ

MFCC - это коэффициенты DCT мелкомасштабного (нелинейного) спектра. Другими словами, они фиксируют амплитуды периодических изменений в спектре Мел. В анализе музыки это часто используется для описания тембра музыкального произведения. Чем ниже индекс коэффициента, тем ниже частота (периодических изменений в спектре Мела).

Проще говоря: более низкие индексы / коэффициенты обычно более важны.

То же самое имеет место в формате файла изображения JPEG и MP3 - более высокие коэффициенты DCT отбрасываются, поскольку они описывают более высокие частоты, которые часто не считаются важными.

Поэтому меньшее количество коэффициентов означает, что вы можете использовать меньший RNN. Однако вы потеряете информацию, содержащуюся на этих более высоких частотах (которые, как указано выше, часто не считаются очень важными). Это игра убывающей отдачи: в какой-то момент больше коэффициентов просто означает больший вклад, но не обязательно лучшие результаты.

AFAIK, в поиске музыкальной информации ( MIR) обычно используются первые 13 коэффициентов. Но я также видел документы, использующие первые 20.

До того, как оно использовалось в MIR, MFCC использовались в распознавании речи.

См. Б. Логан. "Мел частотные кепстральные коэффициенты для музыкального моделирования". В Международном симпозиуме по поиску музыкальной информации (ISMIR 2000), 2000.

Или Макфи, Брайан и Герт Р.Г. Ланкриет. "Гетерогенное вложение для субъективного сходства художников". ИСМИР 2009, 2009.

Другие вопросы по тегам