Почему логарифмическое правдоподобие странно при использовании коэффициентов MFCC и Delta

Я работаю над проектом, который требует извлечения функций MFCC из аудиопотока. Проект состоит в основном из классификации, хотя в интересах расширения нашего набора данных я работаю над алгоритмом обнаружения, чтобы изолировать части звука, которые мы заинтересованы в классификации.

Я проверяю различные представления и в связи с характером данных (хотелось бы дать больше подробностей, но профессор, с которым я работаю, предпочел бы сохранить его в тайне, я вполне уверен), я бы представил дельта-коэффициенты поверх Коэффициенты MFCC были бы полезны.

Я извлекаю 40 MFCC-коэффициентов вместе с 40-дельта-коэффициентами и использую их для обнаружения. У меня есть набор обучающих данных, который состоит из 40-миллисекундного окна, сосредоточенного вокруг частей интересующего меня аудиопотока. Затем я обучаю GMM на этих данных.

Для тестирования (и его фактического варианта использования) я разделил более длинный аудиопоток (около 2 секунд) на последовательность кадров MFCC. Я извлекаю логарифмическую правдоподобие для каждого кадра и пороговое значение обнаружения на основе процентилей в логарифмическом балле правдоподобия, и получаю странные результаты при использовании дельта-коэффициентов.

Числами дельты не используются в представлениях признаков

Доступные признаки дельты, используемые в представлении признаков

Вы можете игнорировать 4 цифры внизу, они были только для визуализации моей схемы порогов.

Что я хочу знать, так это то, почему логарифмическая правдоподобие ведет себя так странно при использовании дельта-коэффициентов по сравнению с тем, когда дельты не используются?

Заранее спасибо, если вам нужны разъяснения, пожалуйста, спросите.

1 ответ

Посмотрите на амплитуды вашего сигнала. Пример Delta Coeffs является подозрительно низким по сравнению с Non-delta. Может это просто шум?

Попробуйте запустить систему с дельтой и без нее на одной и той же записи. Это будет легче отлаживать.

Вы также можете прикрепить спектрографическую визуализацию вашего MFCC с дельтой.

Другие вопросы по тегам