Сарса с нейронной сетью для решения задачи Mountain Car

Я пытаюсь реализовать Эпизодическую Полуградиентную Сарсу для Оценки, описанную в книге Саттона, чтобы решить Mountain Car Task, Приблизить q Я хочу использовать neural network, Поэтому я придумал этот код. Но, к сожалению, мой агент на самом деле не учится решать задачу. В некоторых эпизодах решение найдено очень быстро (100-200 шагов), но иногда агенту требуется более 30 тысяч шагов. Я думаю, что я допустил некоторую элементарную ошибку в своей реализации, но сам не могу ее найти. Может ли кто-нибудь мне помочь и указать на ошибку / ошибку в моей реализации?

1 ответ

Решение

Я решил эту проблему, изменив структуру сети: вместо использования (state, action) пара, чтобы предсказать Q-value об этом, я изменил это так DQN делает это: я предсказываю value из всех трех возможных действий для данного состояния, а затем выберите действие в соответствии с этими прогнозами. Я не смог найти проблему с моим предыдущим подходом, но по крайней мере это сейчас работает.

Другие вопросы по тегам