Предложение модели: определение ключевых слов
Я хочу спрогнозировать появление слова «повтор» в речи, а также приблизительную продолжительность этого слова. Для этой задачи я планирую построить модель глубокого обучения. У меня около 50 положительных и 50 отрицательных высказываний (больше я собрать не смог).
Сначала я искал какие-либо предварительно обученные модели для определения ключевых слов, но мне не удалось найти подходящую.
Затем я попробовал модели распознавания речи (Deep Speech), но они не смогли предсказать точное повторение слов, поскольку мои данные следовали за индийским акцентом. Кроме того, я подумал, что переход на модели ASR для этой задачи будет излишним.
Теперь я разделил весь звук на кусок по 1 секунде с 50% перекрытием и попробовал бинарную классификацию звука в каждом фрагменте, то есть, есть ли в этом фрагменте слово «повторение» или нет. Для построения модели классификации я вычислил характеристики MFCC и построил на их основе модель последовательности. Кажется, у меня ничего не работает.
Если кто-то уже работал с такого рода задачами, пожалуйста, предоставьте мне правильный метод / ресурсы для создания модели DL для этой задачи. Заранее спасибо!