Следующее действие a из состояния s, является ли результат вероятным или детерминированным?
Я изо всех сил пытаюсь понять один аспект Марковского процесса принятия решений.
Когда я нахожусь в состоянии s и выполняю действие a, является ли это детерминированным или стохастическим, чтобы прийти в состояние s+1?
В большинстве примеров это кажется детерминированным. Однако я нашел один пример на картинке ниже (лекция Дэвида Сильверса по RL), где транзистор стохастический. А именно следующее действие "Паб".
1 ответ
В общем случае в марковских процессах принятия решений переход между состояниями может быть стохастическим. Обычно переход вероятности в другое состояние обозначается P_a(s, s')
, где s
текущее состояние, s'
следующее состояние, и a
действие выполнено.
Детерминированный случай является частным случаем стохастического. Если P_a(s, s') равен 1 для данного s'
и 0 для остальных состояний, мы имеем детерминированный переход.