Выбор метода обучения для модели seq2seq
Какой метод обучения вы можете порекомендовать для обучения последовательности, основанной на внимании, для модели нейронного машинного перевода последовательности? SGD, Adadelta, Adam или что-то лучше? Пожалуйста, дайте несколько советов, спасибо.
1 ответ
Используйте алгоритм адаптивного градиента, такой как Адам, Ададелта или RMSProp. Я склонен использовать Адама, и всегда в сочетании с обрезанными градиентами.
Алгоритмы адаптивного градиента имеют скорость обучения для каждого параметра. Это очень полезно, когда у вас есть модели, в которых некоторые параметры могут быть более разреженными (увеличить скорость обучения) или не разреженными (уменьшить скорость обучения). Если вы работаете с чем-то вроде нейронного машинного перевода, эта редкость является проблемой. Полагаю, Адам немного дороже в вычислительном отношении, но дает хорошие результаты.