Как выбрать действие в TD(0) обучения

Я сейчас читаю Саттона Reinforcement Learning: An introduction книга. После прочтения главы 6.1 я хотел реализовать TD(0) Алгоритм RL для этой настройки:

Для этого я попытался реализовать представленный здесь псевдокод:

Делая это, я задавался вопросом, как сделать этот шаг A <- action given by π for S: Могу ли я выбрать оптимальное действие A для моего текущего состояния S? В качестве значения функции V(S) Я просто не знаю, как это можно сделать, зависит только от состояния, а не от действия.

Я нашел этот вопрос (откуда я взял изображения), который касается того же упражнения, но здесь действие выбирается случайным образом, а не выбирается политикой действия. π,

Изменить: Или это псевдокод не завершен, так что я должен приблизить action-value function Q(s, a) по-другому тоже?

1 ответ

Решение

Вы правы, вы не можете выбрать действие (ни вывести политику π) только из функции значения V(s) потому что, как вы заметили, это зависит только от государства s,

Ключевая концепция, которую вы, вероятно, здесь упускаете, состоит в том, что обучение TD(0) является алгоритмом для вычисления функции значения данной политики. Таким образом, вы предполагаете, что ваш агент придерживается известной политики. В случае проблемы Случайного блуждания политика состоит в выборе действий случайным образом.

Если вы хотите научиться политике, вам нужно оценить функцию action-value Q(s,a), Существует несколько методов обучения Q(s,a) основанный на разнице во времени, такой как, например, SARSA и Q-learning.

В книге Р.Л. Саттона авторы различают два вида проблем: проблемы прогнозирования и проблемы управления. Первый относится к процессу оценки функции стоимости данной политики, а второй - к оценке политики (часто с помощью функций действия-значения). Вы можете найти ссылку на эти понятия в начальной части главы 6:

Как обычно, мы начнем с того, что сосредоточимся на оценке или прогнозировании политики, а именно на оценке функции стоимости для данной политики. Для задачи управления (поиск оптимальной политики) методы DP, TD и Monte Carlo используют некоторые варианты обобщенной итерации политики (GPI). Различия в методах - это, прежде всего, различия в подходах к проблеме прогнозирования.

Другие вопросы по тегам