Следует ли мне избегать использования регуляризации L2 в сочетании с RMSProp?
Следует ли мне избегать использования регуляризации L2 в сочетании с RMSprop и NAG?
Член регуляризации L2 вмешивается в алгоритм градиента (RMSprop)?
С наилучшими пожеланиями,
1 ответ
Кажется, кто-то разобрался (2018) с вопросом (2017).
Ванильные адаптивные градиенты (RMSProp, Adagrad, Adam и т. Д.) Не очень хорошо соответствуют регуляризации L2.
Ссылка на статью [ https://arxiv.org/pdf/1711.05101.pdf%5D и некоторое вступление:
В этой статье мы показываем, что основной фактор плохого обобщения наиболее популярного метода адаптивного градиента, Адама, связан с тем фактом, что регуляризация L2 не так эффективна для него, как для SGD.
Регуляризация L2 и снижение веса не идентичны. Вопреки распространенному мнению, эти два метода не эквивалентны. Для SGD их можно сделать эквивалентными путем повторной параметризации коэффициента снижения веса на основе скорости обучения; это не тот случай для Адама. В частности, в сочетании с адаптивными градиентами, регуляризация L2 приводит к тому, что веса с большими градиентами регуляризируются меньше, чем при использовании снижения веса.