Укрепление обучения без государства-преемника

Question

Укрепление обучения без государства-преемника

Я пытаюсь представить проблему как проблему обучения подкреплению. Моя сложность в том, что состояние, в котором находится агент, меняется случайным образом. Они должны просто выбрать действие в том штате, в котором они находятся. Я хочу изучить соответствующие действия для всех штатов, основываясь на награде, которую они получают за выполнение действий.

Вопрос:

Это специфический тип проблемы RL? Если нет преемника, то как можно рассчитать значение состояния?

1

reinforcement-learning mdp

Источник

user1550094 10 сен '13 в 13:26

2 ответа

Решение

Итак, я обнаружил, что это будет называться проблемой обучения подкреплению Монте-Карло. Вместо того, чтобы связывать значение с состоянием, основанным на значении состояний, в которые можно перейти, значение ассоциируется с состоянием в соответствии с результатом политики, данной данному состоянию напрямую. Это полезно в тех случаях, когда динамика функции перехода из состояния неизвестна или имеет сильную стохастику и ее трудно смоделировать.

https://en.wikipedia.org/wiki/Reinforcement_learning

0

Источник

user1550094 11 сен '13 в 05:58

Другие вопросы по тегам reinforcement-learning mdp

user49329 10 сен '13 в 19:22 2013-09-10 19:22 · Accepted Answer · 2013-09-10 19:22

Если состояние действительно изменяется случайным образом, если между действием и следующим состоянием нет никакой связи, тогда все, что вы можете сделать, - это записать и усреднить вознаграждения за каждое действие и каждое состояние.

2

Источник

user49329 10 сен '13 в 19:22