Понимание графиков тензорной доски для PPO в RLLIB

Question

Понимание графиков тензорной доски для PPO в RLLIB

Я новичок в Deep RL и хотел бы тренироваться в собственном тренажерном зале в RLLIB с алгоритмом PPO. Однако у меня возникают некоторые трудности с проверкой успешности настройки моих гиперпараметров. Помимо очевидной метрики Episode_reward_mean, которая должна вырасти, у нас есть много других графиков.

Меня особенно интересует, как энтропия должна развиваться во время успешного обучения. В моем случае это выглядит так:

entropy.jpg

Обычно он опускается ниже 0, а затем сходится. Я понимаю, что энтропия как часть функции потерь требует исследования и, следовательно, может ускорить обучение. Но почему он становится отрицательным? Разве он не всегда должен быть больше или равен 0?

Каковы еще характеристики успешного обучения (vf_explained_var, vf_loss, kl,...)?

0

tensorflow reinforcement-learning rllib

Источник

user7872454 13 мар '20 в 12:30

1 ответ

Другие вопросы по тегам tensorflow reinforcement-learning rllib

user12346446 21 авг '20 в 02:16 2020-08-21 02:16 · Answer 1 · 2020-08-21 02:16

Если ваше пространство действий непрерывно, энтропия может быть отрицательной, потому что дифференциальная энтропия может быть отрицательной.

В идеале вы хотите, чтобы энтропия уменьшалась медленно и плавно в процессе обучения, поскольку агент торгует разведкой в пользу эксплуатации.

Что касается показателей vf_*, полезно знать, что они означают.

В методах градиента политики может быть полезно уменьшить дисперсию оценок развертывания с помощью функции ценности - параметризованной нейронной сетью - для оценки вознаграждений, которые появятся в более отдаленном будущем (проверьте статью PPO для некоторых математических расчетов на стр.).

vf_explained_var - это объясненная вариация будущих вознаграждений с помощью функции ценности. Вы хотите, чтобы это значение было выше, если возможно, и оно достигнет 1; однако, если в вашей среде присутствует случайность, маловероятно, что это действительно достигнет 1. vf_loss - это ошибка, которую вызывает ваша функция значения; в идеале это значение уменьшится до 0, хотя это не всегда возможно (из-за случайности). kl - это разница между вашей старой стратегией и вашей новой стратегией на каждом временном шаге: вы хотите, чтобы она плавно уменьшалась по мере вашего обучения, чтобы указать на сходимость.