В обучении с подкреплением, в чем разница между оптимальной политикой и кусочно-оптимальной политикой?

Question

В обучении с подкреплением, в чем разница между оптимальной политикой и кусочно-оптимальной политикой?

Как мы можем определить оптимальную политику и по частям оптимальную политику?

Я думаю, это зависит от того, является ли это проблемой с непрерывным или дискретным временем. Для дискретного времени оба должны быть одинаковыми. Я прав?

1

machine-learning reinforcement-learning policy dynamic-controls control-theory

Источник

user7657597 09 мар '17 в 12:34

1 ответ

Другие вопросы по тегам machine-learning reinforcement-learning policy dynamic-controls control-theory

user7657597 13 мар '17 в 18:27 2017-03-13 18:27 · Answer 1 · 2017-03-13 18:27

Я хотел бы добавить ответ сам.

Кусочная оптимальная политика - это та, в которой мы жадно выбираем оптимальное действие (т. Е. Оптимальное только для следующего момента). Однако оптимальным будет тот, в котором мы выбираем политику на временном горизонте (как в эпизодической MDP). Продолжительность временного горизонта зависит от приложения.