Следующее действие a из состояния s, является ли результат вероятным или детерминированным?

Я изо всех сил пытаюсь понять один аспект Марковского процесса принятия решений.

Когда я нахожусь в состоянии s и выполняю действие a, является ли это детерминированным или стохастическим, чтобы прийти в состояние s+1?

В большинстве примеров это кажется детерминированным. Однако я нашел один пример на картинке ниже (лекция Дэвида Сильверса по RL), где транзистор стохастический. А именно следующее действие "Паб".

график

1 ответ

Решение

В общем случае в марковских процессах принятия решений переход между состояниями может быть стохастическим. Обычно переход вероятности в другое состояние обозначается P_a(s, s'), где s текущее состояние, s' следующее состояние, и a действие выполнено.

Детерминированный случай является частным случаем стохастического. Если P_a(s, s') равен 1 для данного s' и 0 для остальных состояний, мы имеем детерминированный переход.

Другие вопросы по тегам