Распределение значений набора данных для сигмовидной и tanh
Как отмечается во многих работах, для лучшей кривой обучения NN лучше нормализовать набор данных таким образом, чтобы значения соответствовали кривой Гаусса.
Это применимо, только если мы используем сигмовидную функцию в качестве функции сжатия? Если нет, то какое отклонение лучше всего подходит для функции сквоша?
1 ответ
Это применимо, только если мы используем сигмовидную функцию в качестве функции сжатия?
Нет, распределение активации, очевидно, зависит от функции активации, поэтому, в частности, методы инициализации различны для нейронных сетей на основе сигмоидов и релейных систем. Посмотрите на разницу между инициализацией Ксавье и Не в этом вопросе. То же самое верно для входного распределения.
Если нет, то какое деление лучше для функции сквоша?
Но tanh
масштабируется и сдвигается sigmoid
:
tanh(x) = 2⋅sigmoid(2x) - 1
Таким образом, если активации обычно распределяются для активации сигмовидной кишки, они все равно будут нормально распределяться для tanh. Только с масштабированным стандартным отклонением и смещенным средним. То же самое распределение входных данных работает нормально для tanh. Если вы хотите получить ту же самую гауссову дисперсию, вы можете масштабировать вход sqrt(2)
, но это действительно не так важно.