Как обучить данные с большими различиями между значениями
В настоящее время я работаю над рекуррентными нейронными сетями для преобразования текста в речь, но я застрял в одном месте.
У меня есть несколько входных файлов, и они имеют характерные черты текста (фонемы и т. Д.) С размером 490. Выходные файлы - mgc(60-d), bap(25-d) и lf0(1-d). Файлы mgc и bap в порядке, потому что между значениями нет больших пробелов. Я могу обучить их с разумным временем и точностью. Входы и выходы являются последовательными и правильно выровненными, например, если вход имеет форму (300, 490), то формы mgc, bap и lf0 будут (300, 60), (300, 25) и (300, 1), соответственно.
Моя проблема здесь с lf0 (лог основной частоты, я полагаю). Значения подобны, скажем, [0,23, 1,2, 0,54, 3,4, -10e9, -10e9, -10e9, 3,2, 0,25]. Я пытался обучить его, используя MSE, но ошибка слишком высока и не уменьшается вообще.
Я хотел бы услышать любое предложение по этой проблеме. Я открыт для всего.
PS: я использую 2 слоя слоя с 256 или 512 единицами каждого.