Сарса с нейронной сетью для решения задачи Mountain Car
Я пытаюсь реализовать Эпизодическую Полуградиентную Сарсу для Оценки, описанную в книге Саттона, чтобы решить Mountain Car Task
, Приблизить q
Я хочу использовать neural network
, Поэтому я придумал этот код. Но, к сожалению, мой агент на самом деле не учится решать задачу. В некоторых эпизодах решение найдено очень быстро (100-200 шагов), но иногда агенту требуется более 30 тысяч шагов. Я думаю, что я допустил некоторую элементарную ошибку в своей реализации, но сам не могу ее найти. Может ли кто-нибудь мне помочь и указать на ошибку / ошибку в моей реализации?
1 ответ
Я решил эту проблему, изменив структуру сети: вместо использования (state, action)
пара, чтобы предсказать Q-value
об этом, я изменил это так DQN
делает это: я предсказываю value
из всех трех возможных действий для данного состояния, а затем выберите действие в соответствии с этими прогнозами. Я не смог найти проблему с моим предыдущим подходом, но по крайней мере это сейчас работает.