Расчеты недоумения растут между каждым значительным падением

Я тренирую разговорный агент, используя LSTM и модель перевода tenorflow. Я использую периодическое обучение, что приводит к значительному снижению сложности тренировочных данных после начала каждой эпохи. Это падение можно объяснить тем, как я считываю данные в пакеты, поскольку я гарантирую, что каждая обучающая пара в моих тренировочных данных обрабатывается ровно один раз в каждую эпоху. Когда начинается новая эпоха, улучшения, сделанные моделью в предыдущих эпохах, покажут свою прибыль, когда она снова встретит обучающие данные, представленные в виде падения на графике. Другие периодические подходы, такие как тот, который используется в модели трансляции tenorflow, не приведут к такому же поведению, поскольку их методология состоит в том, чтобы загружать все тренировочные данные в память и случайным образом выбирать выборки из них.

Шаг, недоумение

  • 330000, 19,36
  • 340000, 19,20
  • 350000, 17,79
  • 360000, 17,79
  • 370000, 17,93
  • 380000, 17,98
  • 390000, 18,05
  • 400000, 18.10
  • 410000, 18,14
  • 420000, 18,07
  • 430000, 16,48
  • 440000, 16,75

(Небольшое отрывание от недоумения, показывающее падение на 350000 и 430000. Между каплями недоумение немного возрастает)

Однако мой вопрос касается тренда после падения. Из графика видно, что недоумение немного возрастает (для каждой эпохи после шага ~350000), до следующего падения. Может кто-нибудь дать ответ или теорию, почему это происходит?

1 ответ

Это было бы типично для переоснащения.

Другие вопросы по тегам