Следует ли мне избегать использования регуляризации L2 в сочетании с RMSProp?

Question

Следует ли мне избегать использования регуляризации L2 в сочетании с RMSProp?

Следует ли мне избегать использования регуляризации L2 в сочетании с RMSprop и NAG?

Член регуляризации L2 вмешивается в алгоритм градиента (RMSprop)?

С наилучшими пожеланиями,

6

machine-learning neural-network backpropagation

Источник

user1877632 23 фев '17 в 12:06

1 ответ

Другие вопросы по тегам machine-learning neural-network backpropagation

user1877632 01 мар '18 в 12:05 2018-03-01 12:05 · Answer 1 · 2018-03-01 12:05

Кажется, кто-то разобрался (2018) с вопросом (2017).

Ванильные адаптивные градиенты (RMSProp, Adagrad, Adam и т. Д.) Не очень хорошо соответствуют регуляризации L2.

Ссылка на статью [ https://arxiv.org/pdf/1711.05101.pdf%5D и некоторое вступление:

В этой статье мы показываем, что основной фактор плохого обобщения наиболее популярного метода адаптивного градиента, Адама, связан с тем фактом, что регуляризация L2 не так эффективна для него, как для SGD.
Регуляризация L2 и снижение веса не идентичны. Вопреки распространенному мнению, эти два метода не эквивалентны. Для SGD их можно сделать эквивалентными путем повторной параметризации коэффициента снижения веса на основе скорости обучения; это не тот случай для Адама. В частности, в сочетании с адаптивными градиентами, регуляризация L2 приводит к тому, что веса с большими градиентами регуляризируются меньше, чем при использовании снижения веса.