Распределение значений набора данных для сигмовидной и tanh

Как отмечается во многих работах, для лучшей кривой обучения NN лучше нормализовать набор данных таким образом, чтобы значения соответствовали кривой Гаусса.

Это применимо, только если мы используем сигмовидную функцию в качестве функции сжатия? Если нет, то какое отклонение лучше всего подходит для функции сквоша?

1 ответ

Решение

Это применимо, только если мы используем сигмовидную функцию в качестве функции сжатия?

Нет, распределение активации, очевидно, зависит от функции активации, поэтому, в частности, методы инициализации различны для нейронных сетей на основе сигмоидов и релейных систем. Посмотрите на разницу между инициализацией Ксавье и Не в этом вопросе. То же самое верно для входного распределения.

Если нет, то какое деление лучше для функции сквоша?

Но tanh масштабируется и сдвигается sigmoid:

tanh(x) = 2⋅sigmoid(2x) - 1

Таким образом, если активации обычно распределяются для активации сигмовидной кишки, они все равно будут нормально распределяться для tanh. Только с масштабированным стандартным отклонением и смещенным средним. То же самое распределение входных данных работает нормально для tanh. Если вы хотите получить ту же самую гауссову дисперсию, вы можете масштабировать вход sqrt(2), но это действительно не так важно.

Другие вопросы по тегам