как преобразовать данные массива 1d амплитуды из FTT в данные 3d спектрограммы mel?

Недавно я создал модель mobilieNet, которая имеет входной размер трехмерной матрицы (количество кадров, количество полос, 1) на основе преобразования из wav в спектрограмму (с использованием VGGish). Модель должна сделать основу предсказания звука на основе 1-секундного звука в реальном времени. У меня есть микроконтроллер с аудиомодулем, таким как i2s и FFT. Я могу получить 1d-массив амплитуды fft (который состоит из 512 точек fft) со встроенного микрофона.

Проблема: как я могу преобразовать 1d-массив (fft) в 3d-матрицу (mel-спектрограмму), чтобы подогнать входные данные к модели и сделать прогноз?

0 ответов

Другие вопросы по тегам