Каковы значения MFCC?
Итак, я знаю, что такое MFCC (коэффициенты частотного кепстра Мел). Но мне нужно понять, что такое каждое значение... Это какое-то значение звуковой частоты или что?
Давайте предположим, что у нас есть такая матрица. Таким образом, каждая строка представляет коэффициенты одного кадра, но что это за числа? Это может быть самая высокая частота или что-то?
1 ответ
Кепструм обычно получают путем вычисления дискретного косинусного преобразования (симметричного) логарифмического спектра мощности кадра речи; здесь спектр мощности логарифма [кривая] рассматривается как сигнал ( https://en.wikipedia.org/wiki/Mel-frequency_cepstrum). Таким образом, кепстральные коэффициенты являются мерами сходства между последовательностью / кривой (которая представляет логарифмический спектр мощности) и косинусоидальными волнами различных "частот". Кепстральные коэффициенты фиксируют скорость, с которой изменяются значения этой последовательности.
Первый кепстральный коэффициент является точечным произведением логарифмического спектра мощности с [периодической] косинусоидальной волной, один период которой начинается в начале координат (f=0) в частотной области и заканчивается в f=2* Пи радианах (или эквивалентно, частота дискретизации). Иллюстрация: логарифмический спектр мощности гласного имеет высокую энергию в низкочастотной области (около f = 0) и низкую энергию в высокочастотной области (около f=Pi). Другими словами, наклон кривой спектра мощности логарифма в диапазоне [0,Pi] имеет отрицательный наклон в случае гласных. Поскольку это изменение спектра мощности логарифма аналогично изменению косинусоидальной волны, упомянутой выше, первый кепстральный коэффициент речевого кадра гласных будет иметь положительное значение. Напротив, кепстр [1] невокализованного фрикатива, такого как / s /, будет иметь отрицательное значение, поскольку его спектр мощности логарифма будет иметь положительный наклон из-за низкой энергии на низкой частоте и высокой энергии на высокой частоте, а также значительной энергии на низкой частоте из-за озвучивания.
Аналогично, кепструм [2] был бы положительным, если бы в доле логарифмического спектра мощности была большая долина при f=Pi/2. Логарифмический спектр мощности вокализованного фрикатива (например, /z/) будет близок к такому описанию, потому что на высокой частоте присутствует значительная энергия из-за фрикционной природы звука. Конечно, кепстр [0] - это среднее значение логарифмических спектральных значений; он фиксирует громкость / громкость сигнала.