Предложение модели: определение ключевых слов

Question

Предложение модели: определение ключевых слов

Я хочу спрогнозировать появление слова «повтор» в речи, а также приблизительную продолжительность этого слова. Для этой задачи я планирую построить модель глубокого обучения. У меня около 50 положительных и 50 отрицательных высказываний (больше я собрать не смог).

Сначала я искал какие-либо предварительно обученные модели для определения ключевых слов, но мне не удалось найти подходящую.

Затем я попробовал модели распознавания речи (Deep Speech), но они не смогли предсказать точное повторение слов, поскольку мои данные следовали за индийским акцентом. Кроме того, я подумал, что переход на модели ASR для этой задачи будет излишним.

Теперь я разделил весь звук на кусок по 1 секунде с 50% перекрытием и попробовал бинарную классификацию звука в каждом фрагменте, то есть, есть ли в этом фрагменте слово «повторение» или нет. Для построения модели классификации я вычислил характеристики MFCC и построил на их основе модель последовательности. Кажется, у меня ничего не работает.

Если кто-то уже работал с такого рода задачами, пожалуйста, предоставьте мне правильный метод / ресурсы для создания модели DL для этой задачи. Заранее спасибо!

0

deep-learning audio-processing keyword-spotting

Источник

user14247846 29 июн '21 в 15:31

0 ответов

Другие вопросы по тегам deep-learning audio-processing keyword-spotting