Эпизодическая полуградиентная сарса с нейронной сетью

Question

Эпизодическая полуградиентная сарса с нейронной сетью

Пытаясь реализовать Episodic Semi-gradient Sarsa with Нейронная сеть как аппроксиматор Мне было интересно, как я выбираю оптимальное действие на основе изученных в настоящее время весов сети. Если пространство действий дискретно, я могу просто рассчитать оценочную стоимость различных действий в текущем состоянии и выбрать то, которое дает максимум. Но, похоже, это не лучший способ решения проблемы. Кроме того, он не работает, если пространство действия может быть непрерывным (например, ускорение автомобиля с автоматическим управлением).

Итак, в основном мне интересно, как решить 10-ю строку Choose A' as a function of q(S', , w) в этом псевдокоде Саттона:

Как обычно решаются эти проблемы? Можно ли порекомендовать хороший пример этого алгоритма, используя Keras?

Изменить: мне нужно изменить псевдокод при использовании сети в качестве аппроксиматора? Так, что я просто минимизирую MSE предсказания сети и вознаграждения R например?

6

neural-network reinforcement-learning sarsa

Источник

user3157209 28 июл '17 в 15:35

1 ответ

Решение

Другие вопросы по тегам neural-network reinforcement-learning sarsa

user2001031 29 июл '17 в 16:38 2017-07-29 16:38 · Accepted Answer · 2017-07-29 16:38

Я задавался вопросом, как я выбираю оптимальное действие на основе изученных в настоящее время весов сети

У вас есть три основных варианта:

Запустите сеть несколько раз, по одному разу для каждого возможного значения A', чтобы соответствовать значению S', которое вы рассматриваете. Примите максимальное значение в качестве прогнозируемого оптимального действия (с вероятностью 1-ε, в противном случае выбирайте случайным образом для политики ε-жадности, обычно используемой в SARSA)
Проектируйте сеть, чтобы оценивать все значения действий одновременно - т.е. иметь | A (s) | выходы (возможно, дополнены, чтобы охватить "невозможные" действия, которые вам нужно отфильтровать). Это немного изменит вычисления градиента, должен быть нулевой градиент, примененный к последним неактивным выходам слоя (то есть все, что не соответствует A of (S, A)). Опять же, просто возьмите максимально допустимый результат в качестве предполагаемого оптимального действия. Это может быть более эффективным, чем запуск сети несколько раз. Это также подход, использованный недавним ботом DQN Atari, играющим в бот, и политическими сетями AlphaGo.
Используйте метод градиента политики, который работает с использованием примеров для оценки градиента, который улучшит оценку политики. Вы можете увидеть главу 15 текущего проекта Саттона и Барто " Обучение усилению: Введение" для более подробной информации. Методы градиента политики становятся привлекательными для случаев, когда существует большое количество возможных действий, и они могут справляться с пространствами непрерывных действий (путем оценки функции распределения для оптимальной политики - например, выбирая среднее значение и стандартное отклонение нормального распределения, из которого можно выбирать принять ваши действия). Вы также можете комбинировать политический градиент с подходом "значение-состояние" в методах "актер-критик", которые могут быть более эффективными учениками, чем чисто политический подход-градиент.

Обратите внимание, что если ваше пространство действий непрерывно, вам не нужно использовать метод градиента политики, вы можете просто количественно оценить действие. Кроме того, в некоторых случаях, даже если в теории действия являются непрерывными, вы можете обнаружить, что оптимальная политика предполагает использование только экстремальных значений ( пример классического горного автомобиля относится к этой категории, единственными полезными действиями являются максимальное ускорение и максимальное обратное ускорение)

Нужно ли изменять псевдокод при использовании сети в качестве аппроксиматора? Так, что я просто минимизирую MSE прогнозирования сети и вознаграждения R например?

Нет. В псевдокоде нет отдельной функции потерь, такой как MSE, которую вы бы использовали в контролируемом обучении. Термин ошибки (часто называемый ошибкой TD) задается частью в квадратных скобках и обеспечивает аналогичный эффект. Буквально термин ∇q (S, A, w) (извините за отсутствие шляпы, нет LaTex на SO) означает градиент самой оценки, а не градиент какой-либо функции потерь.