Укрепление обучения без государства-преемника

Я пытаюсь представить проблему как проблему обучения подкреплению. Моя сложность в том, что состояние, в котором находится агент, меняется случайным образом. Они должны просто выбрать действие в том штате, в котором они находятся. Я хочу изучить соответствующие действия для всех штатов, основываясь на награде, которую они получают за выполнение действий.

Вопрос:

Это специфический тип проблемы RL? Если нет преемника, то как можно рассчитать значение состояния?

2 ответа

Решение

Если состояние действительно изменяется случайным образом, если между действием и следующим состоянием нет никакой связи, тогда все, что вы можете сделать, - это записать и усреднить вознаграждения за каждое действие и каждое состояние.

Итак, я обнаружил, что это будет называться проблемой обучения подкреплению Монте-Карло. Вместо того, чтобы связывать значение с состоянием, основанным на значении состояний, в которые можно перейти, значение ассоциируется с состоянием в соответствии с результатом политики, данной данному состоянию напрямую. Это полезно в тех случаях, когда динамика функции перехода из состояния неизвестна или имеет сильную стохастику и ее трудно смоделировать.

https://en.wikipedia.org/wiki/Reinforcement_learning

Другие вопросы по тегам