Описание тега mfcc
Кепстральные коэффициенты Mel-частоты. Имя, данное альтернативному представлению речевых сигналов на основе его частотного содержания. Очень популярный способ представления речевого сигнала как вектора признаков. Используется в основном для задач распознавания речи.
2
ответа
Как взять первые 13 коэффициентов в MFCC
У меня проблемы с MFCC. Я следовал за учебником шаг за шагом. После шага "Оконное управление" я вычисляю DFT для каждого кадра. Мой вопрос: будут ли остальные шаги, включая "Банк Mel-фильтра", "Журнал" и "DCT", применяться к каждому кадру? Я запутал…
08 июл '13 в 17:01
2
ответа
Применение K-средних к коэффициентам MFCC для ASR
Я разделил свой аудиосигнал на кадр 20 мс с перекрытием 10 мс. В результате у меня 500 кадров. Я рассчитал коэффициенты MFCC для каждого кадра. Я хочу сделать векторное квантование для каждого кадра, используя алгоритм K-MEAN. У меня есть 16 коэффиц…
11 мар '17 в 17:37
0
ответов
Исключение Tensorboard с summary.image формы [-1, 125, 128, 1] MFCC
Следуя этому руководству, я конвертирую тензор [batch_size, 16000, 1] в MFCC, используя метод, описанный в ссылке: def gen_spectrogram(wav, sr=16000): # A 1024-point STFT with frames of 64 ms and 75% overlap. stfts = tf.contrib.signal.stft(wav, fram…
30 дек '17 в 17:11
0
ответов
Классификатор одного класса с использованием гауссовой модели смеси
Я работаю над проектом идентификации докладчиков в Matlab, моя цель - проверить, является ли тестовый докладчик моим целевым докладчиком или нет.Я использовал mfcc и lpcc и pitch в качестве своих функций в этом проекте, и я использовал libsvm для кл…
25 янв '18 в 15:15
1
ответ
Как использовать MFCC в Weka для классификации аудио?
Я пытаюсь разработать метод классификации аудио с использованием MFCC в Weka. Имеющиеся у меня MFCC генерируются с размером буфера 1024, поэтому для каждой аудиозаписи существует ряд коэффициентов MFCC. Я хочу преобразовать эти коэффициенты в формат…
20 июл '17 в 19:52
0
ответов
Причина разных результатов для извлечения mfcc с использованием разных библиотек
Я нашел две библиотеки (librosa и tarsosDSP), которые предназначены для обработки аудиосигнала. У них обоих есть метод для извлечения mfcc. После запуска простого примера на том же .wav В файле они дают совершенно разные результаты: Синий происходит…
18 окт '17 в 13:51
1
ответ
Как размер функции mfcc влияет на рецидивирующую нейронную сеть
Итак, я изучаю машинное обучение и хотел узнать, как размер функции mfcc влияет на RNN (Recurent Neural Network)? С помощью librosa я извлек mfcc, а затем дельта-коэффициенты, и после этого я получил массив измерений [13, sound_length] Код извлечени…
10 янв '17 в 03:31
1
ответ
Каковы значения MFCC?
Итак, я знаю, что такое MFCC (коэффициенты частотного кепстра Мел). Но мне нужно понять, что такое каждое значение... Это какое-то значение звуковой частоты или что? Давайте предположим, что у нас есть такая матрица. Таким образом, каждая строка пре…
04 июн '17 в 15:25
1
ответ
Дельта-коэффициенты от mfcc
Может ли кто-нибудь объяснить мне, как вычислять дельта-коэффициенты из MFCC для кадра? Я не понял интерпретацию в практическом руководстве по криптографии.
21 фев '16 в 13:51
1
ответ
Как создать банк треугольных (Mel) фильтров, используемый в MFCC для распознавания речи в MATLAB?
Хотя могут быть доступны встроенные функции, мне нужно создать собственный банк треугольных фильтров. Ниже мой код для этого. Я получаю значения NaN в моем HMatrix (filterbank). Это связано с "одинаковыми" значениями в моем FreqArray, которые исполь…
10 мар '17 в 22:20
1
ответ
HTK - Что представляют собой MFCC модели HMM и входного файла WAV?
При создании MFCC в соответствии с руководством Voxforge для системы "Речь в текст" с использованием HTK (Hidden Markov Model Tool Kit) нам необходимо определить модель-прототип для наших телефонов. Я пытаюсь обернуть голову вокруг этого файла. ~o &…
23 май '17 в 13:58
0
ответов
Проблема с MFCC
Я застрял с реализацией mfcc, я уже применил треугольные окна к своим кадрам, чтобы сгруппировать их по частоте, до сих пор, в этот момент все идет хорошо, у меня также есть реализация спектрограммы с использованием шкалы коры, и если я "заговор "об…
15 июл '11 в 01:36
1
ответ
AttributeError: у объекта 'Series' нет атрибута 'label'
Я пытаюсь следовать руководству по классификации звука в нейронных сетях, и я нашел 3 разные версии одного и того же учебника, и все они работают, но все они достигают загвоздки в коде, где я получаю "AttributeError: у объекта" Series "нет атрибута"…
01 авг '18 в 13:07
1
ответ
mfcc для всей песни отличается от mfcc, рассчитанного для сегментов одной и той же песни
Я рассчитал MFCC для песни 30 секунд, с размером кадра 25 мс и размером прыжка 10 мс, частота дискретизации составляет 22050 spectro=librosa.feature.melspectrogram(track[1], sr=sampleRate, n_fft=int(sampleRate*0.025), hop_length=int(sampleRate*0.01)…
09 мар '18 в 14:43
0
ответов
Есть ли способ получить кепстральные коэффициенты Mel-частоты дорожки из Spotify API?
Я ищу, чтобы получить MFCC (коэффициенты кепстра Mel-частоты) следа Spotify. Моя главная цель - определить жанр трека, и алгоритм, который я сейчас изучаю, использует MFCC для извлечения характеристик трека. Я думаю, что может быть 2 способа сделать…
12 янв '18 в 21:03
2
ответа
Предсказания классификаторов ненадежны, потому что мой классификатор GMM не обучен правильно?
Я тренирую два классификатора GMM, каждый на одну этикетку, со значениями MFCC. Я объединил все значения MFCC класса и поместил в классификатор. И для каждого классификатора я суммирую вероятность вероятности его метки. def createGMMClassifiers(): l…
29 июн '16 в 19:29
1
ответ
Создание банков фильтров MFCC так же, как примитивы производительности Intel
Я пытаюсь построить треугольные фильтры для генерации MFCC. У меня есть существующий код, основанный на IPP 6, но, поскольку IPP 8 уже в пути, я бы очень хотел получить реализацию, которая работает и не зависит от старой, теперь не поддерживаемой, б…
19 сен '13 в 19:41
1
ответ
Создание набора речевых данных для бинарной классификации LSTM
Я пытаюсь сделать бинарную классификацию LSTM, используя theano. Я прошел пример кода, однако я хочу построить свой собственный. У меня есть небольшой набор записей "Hello" и "Goodbye", которые я использую. Я предварительно обработал их, извлекая дл…
07 янв '16 в 17:47
0
ответов
Номер кадра при чтении.wav в Android
Я использую код " Чтение файлов Wav" по этой ссылке, чтобы прочитать файл.wav (частота дискретизации 44100) и получить данные в двойном буфере [frameNumber]. но что меня смущает, так это размер кадра, почему они установили его на 100 для номера кадр…
29 янв '16 в 07:53
1
ответ
Как я могу получить необработанные аудио кадры с микрофона в режиме реального времени или из сохраненного аудиофайла в iOS?
Я пытаюсь извлечь векторы MFCC из аудиосигнала в качестве входных данных в рекуррентную нейронную сеть. Однако у меня возникли проблемы с выяснением того, как получить необработанные аудио кадры в Swift с использованием Core Audio. Предположительно,…
01 дек '17 в 22:38