Укрепление обучения без государства-преемника
Я пытаюсь представить проблему как проблему обучения подкреплению. Моя сложность в том, что состояние, в котором находится агент, меняется случайным образом. Они должны просто выбрать действие в том штате, в котором они находятся. Я хочу изучить соответствующие действия для всех штатов, основываясь на награде, которую они получают за выполнение действий.
Вопрос:
Это специфический тип проблемы RL? Если нет преемника, то как можно рассчитать значение состояния?
2 ответа
Если состояние действительно изменяется случайным образом, если между действием и следующим состоянием нет никакой связи, тогда все, что вы можете сделать, - это записать и усреднить вознаграждения за каждое действие и каждое состояние.
Итак, я обнаружил, что это будет называться проблемой обучения подкреплению Монте-Карло. Вместо того, чтобы связывать значение с состоянием, основанным на значении состояний, в которые можно перейти, значение ассоциируется с состоянием в соответствии с результатом политики, данной данному состоянию напрямую. Это полезно в тех случаях, когда динамика функции перехода из состояния неизвестна или имеет сильную стохастику и ее трудно смоделировать.