Кепстральные коэффициенты Mel-частоты. Имя, данное альтернативному представлению речевых сигналов на основе его частотного содержания. Очень популярный способ представления речевого сигнала как вектора признаков. Используется в основном для задач распознавания речи.
2 ответа

Как взять первые 13 коэффициентов в MFCC

У меня проблемы с MFCC. Я следовал за учебником шаг за шагом. После шага "Оконное управление" я вычисляю DFT для каждого кадра. Мой вопрос: будут ли остальные шаги, включая "Банк Mel-фильтра", "Журнал" и "DCT", применяться к каждому кадру? Я запутал…
08 июл '13 в 17:01
2 ответа

Применение K-средних к коэффициентам MFCC для ASR

Я разделил свой аудиосигнал на кадр 20 мс с перекрытием 10 мс. В результате у меня 500 кадров. Я рассчитал коэффициенты MFCC для каждого кадра. Я хочу сделать векторное квантование для каждого кадра, используя алгоритм K-MEAN. У меня есть 16 коэффиц…
11 мар '17 в 17:37
0 ответов

Исключение Tensorboard с summary.image формы [-1, 125, 128, 1] MFCC

Следуя этому руководству, я конвертирую тензор [batch_size, 16000, 1] в MFCC, используя метод, описанный в ссылке: def gen_spectrogram(wav, sr=16000): # A 1024-point STFT with frames of 64 ms and 75% overlap. stfts = tf.contrib.signal.stft(wav, fram…
0 ответов

Классификатор одного класса с использованием гауссовой модели смеси

Я работаю над проектом идентификации докладчиков в Matlab, моя цель - проверить, является ли тестовый докладчик моим целевым докладчиком или нет.Я использовал mfcc и lpcc и pitch в качестве своих функций в этом проекте, и я использовал libsvm для кл…
25 янв '18 в 15:15
1 ответ

Как использовать MFCC в Weka для классификации аудио?

Я пытаюсь разработать метод классификации аудио с использованием MFCC в Weka. Имеющиеся у меня MFCC генерируются с размером буфера 1024, поэтому для каждой аудиозаписи существует ряд коэффициентов MFCC. Я хочу преобразовать эти коэффициенты в формат…
0 ответов

Причина разных результатов для извлечения mfcc с использованием разных библиотек

Я нашел две библиотеки (librosa и tarsosDSP), которые предназначены для обработки аудиосигнала. У них обоих есть метод для извлечения mfcc. После запуска простого примера на том же .wav В файле они дают совершенно разные результаты: Синий происходит…
18 окт '17 в 13:51
1 ответ

Как размер функции mfcc влияет на рецидивирующую нейронную сеть

Итак, я изучаю машинное обучение и хотел узнать, как размер функции mfcc влияет на RNN (Recurent Neural Network)? С помощью librosa я извлек mfcc, а затем дельта-коэффициенты, и после этого я получил массив измерений [13, sound_length] Код извлечени…
1 ответ

Каковы значения MFCC?

Итак, я знаю, что такое MFCC (коэффициенты частотного кепстра Мел). Но мне нужно понять, что такое каждое значение... Это какое-то значение звуковой частоты или что? Давайте предположим, что у нас есть такая матрица. Таким образом, каждая строка пре…
04 июн '17 в 15:25
1 ответ

Дельта-коэффициенты от mfcc

Может ли кто-нибудь объяснить мне, как вычислять дельта-коэффициенты из MFCC для кадра? Я не понял интерпретацию в практическом руководстве по криптографии.
21 фев '16 в 13:51
1 ответ

Как создать банк треугольных (Mel) фильтров, используемый в MFCC для распознавания речи в MATLAB?

Хотя могут быть доступны встроенные функции, мне нужно создать собственный банк треугольных фильтров. Ниже мой код для этого. Я получаю значения NaN в моем HMatrix (filterbank). Это связано с "одинаковыми" значениями в моем FreqArray, которые исполь…
10 мар '17 в 22:20
1 ответ

HTK - Что представляют собой MFCC модели HMM и входного файла WAV?

При создании MFCC в соответствии с руководством Voxforge для системы "Речь в текст" с использованием HTK (Hidden Markov Model Tool Kit) нам необходимо определить модель-прототип для наших телефонов. Я пытаюсь обернуть голову вокруг этого файла. ~o &…
0 ответов

Проблема с MFCC

Я застрял с реализацией mfcc, я уже применил треугольные окна к своим кадрам, чтобы сгруппировать их по частоте, до сих пор, в этот момент все идет хорошо, у меня также есть реализация спектрограммы с использованием шкалы коры, и если я "заговор "об…
15 июл '11 в 01:36
1 ответ

AttributeError: у объекта 'Series' нет атрибута 'label'

Я пытаюсь следовать руководству по классификации звука в нейронных сетях, и я нашел 3 разные версии одного и того же учебника, и все они работают, но все они достигают загвоздки в коде, где я получаю "AttributeError: у объекта" Series "нет атрибута"…
01 авг '18 в 13:07
1 ответ

mfcc для всей песни отличается от mfcc, рассчитанного для сегментов одной и той же песни

Я рассчитал MFCC для песни 30 секунд, с размером кадра 25 мс и размером прыжка 10 мс, частота дискретизации составляет 22050 spectro=librosa.feature.melspectrogram(track[1], sr=sampleRate, n_fft=int(sampleRate*0.025), hop_length=int(sampleRate*0.01)…
09 мар '18 в 14:43
0 ответов

Есть ли способ получить кепстральные коэффициенты Mel-частоты дорожки из Spotify API?

Я ищу, чтобы получить MFCC (коэффициенты кепстра Mel-частоты) следа Spotify. Моя главная цель - определить жанр трека, и алгоритм, который я сейчас изучаю, использует MFCC для извлечения характеристик трека. Я думаю, что может быть 2 способа сделать…
12 янв '18 в 21:03
2 ответа

Предсказания классификаторов ненадежны, потому что мой классификатор GMM не обучен правильно?

Я тренирую два классификатора GMM, каждый на одну этикетку, со значениями MFCC. Я объединил все значения MFCC класса и поместил в классификатор. И для каждого классификатора я суммирую вероятность вероятности его метки. def createGMMClassifiers(): l…
1 ответ

Создание банков фильтров MFCC так же, как примитивы производительности Intel

Я пытаюсь построить треугольные фильтры для генерации MFCC. У меня есть существующий код, основанный на IPP 6, но, поскольку IPP 8 уже в пути, я бы очень хотел получить реализацию, которая работает и не зависит от старой, теперь не поддерживаемой, б…
19 сен '13 в 19:41
1 ответ

Создание набора речевых данных для бинарной классификации LSTM

Я пытаюсь сделать бинарную классификацию LSTM, используя theano. Я прошел пример кода, однако я хочу построить свой собственный. У меня есть небольшой набор записей "Hello" и "Goodbye", которые я использую. Я предварительно обработал их, извлекая дл…
07 янв '16 в 17:47
0 ответов

Номер кадра при чтении.wav в Android

Я использую код " Чтение файлов Wav" по этой ссылке, чтобы прочитать файл.wav (частота дискретизации 44100) и получить данные в двойном буфере [frameNumber]. но что меня смущает, так это размер кадра, почему они установили его на 100 для номера кадр…
29 янв '16 в 07:53
1 ответ

Как я могу получить необработанные аудио кадры с микрофона в режиме реального времени или из сохраненного аудиофайла в iOS?

Я пытаюсь извлечь векторы MFCC из аудиосигнала в качестве входных данных в рекуррентную нейронную сеть. Однако у меня возникли проблемы с выяснением того, как получить необработанные аудио кадры в Swift с использованием Core Audio. Предположительно,…
01 дек '17 в 22:38