(HotterColder-v0) Угадай число, используя градиенты и направленные производные

Мне было очень трудно решить OpenAi-среду HotterColder-v0.

Цель игры состоит в том, чтобы эффективно использовать предоставленную награду, чтобы понять, какие действия лучше всего предпринять.

После каждого шага агент получает наблюдение: 0 - догадки еще не отправлены (только после сброса) 1 - догадка ниже цели 2 - догадка равна цели 3 - догадка выше цели

Награды рассчитываются следующим образом: ((min(action, self.number) + self.bounds) / (max(action, self.number) + self.bounds)) ** 2 Это, по сути, квадратный процент пути Агент угадал к цели.

В идеале агент сможет распознать "запах" более высокой награды и увеличить скорость, с которой он угадывает в этом направлении, пока награда не достигнет своего максимума.

Я считаю, что мне нужно получить производную вознаграждения по отношению к весу, на который я умножил вход. Я провел весь день, пытаясь решить эту проблему, и я полностью застрял. Пожалуйста помоги!

0 ответов

Другие вопросы по тегам