Следует ли мне избегать использования регуляризации L2 в сочетании с RMSProp?

Следует ли мне избегать использования регуляризации L2 в сочетании с RMSprop и NAG?

Член регуляризации L2 вмешивается в алгоритм градиента (RMSprop)?

С наилучшими пожеланиями,

1 ответ

Кажется, кто-то разобрался (2018) с вопросом (2017).

Ванильные адаптивные градиенты (RMSProp, Adagrad, Adam и т. Д.) Не очень хорошо соответствуют регуляризации L2.

Ссылка на статью [ https://arxiv.org/pdf/1711.05101.pdf%5D и некоторое вступление:

В этой статье мы показываем, что основной фактор плохого обобщения наиболее популярного метода адаптивного градиента, Адама, связан с тем фактом, что регуляризация L2 не так эффективна для него, как для SGD.

Регуляризация L2 и снижение веса не идентичны. Вопреки распространенному мнению, эти два метода не эквивалентны. Для SGD их можно сделать эквивалентными путем повторной параметризации коэффициента снижения веса на основе скорости обучения; это не тот случай для Адама. В частности, в сочетании с адаптивными градиентами, регуляризация L2 приводит к тому, что веса с большими градиентами регуляризируются меньше, чем при использовании снижения веса.

Другие вопросы по тегам