Выбор метода обучения для модели seq2seq

Question

Выбор метода обучения для модели seq2seq

Какой метод обучения вы можете порекомендовать для обучения последовательности, основанной на внимании, для модели нейронного машинного перевода последовательности? SGD, Adadelta, Adam или что-то лучше? Пожалуйста, дайте несколько советов, спасибо.

0

deep-learning attention-model sequence-to-sequence

Источник

user7795558 20 апр '17 в 05:53

1 ответ

Другие вопросы по тегам deep-learning attention-model sequence-to-sequence

user3361966 04 окт '17 в 22:18 2017-10-04 22:18 · Answer 1 · 2017-10-04 22:18

Используйте алгоритм адаптивного градиента, такой как Адам, Ададелта или RMSProp. Я склонен использовать Адама, и всегда в сочетании с обрезанными градиентами.

Алгоритмы адаптивного градиента имеют скорость обучения для каждого параметра. Это очень полезно, когда у вас есть модели, в которых некоторые параметры могут быть более разреженными (увеличить скорость обучения) или не разреженными (уменьшить скорость обучения). Если вы работаете с чем-то вроде нейронного машинного перевода, эта редкость является проблемой. Полагаю, Адам немного дороже в вычислительном отношении, но дает хорошие результаты.