Q-обучение против временной разницы против обучения на основе модели

Question

Q-обучение против временной разницы против обучения на основе модели

Я в курсе под названием "Интеллектуальные машины" в университете. Мы познакомились с 3 методами усиленного обучения, и с теми, которые нам дали интуицию, когда их использовать, и я цитирую:

Q-Learning - лучше всего, когда MDP не может быть решена.
Изучение временной разницы - лучше всего, когда MDP известна или может быть изучена, но не может быть решена.
На основе модели - лучше всего, когда MDP не может быть изучено.

Есть ли хорошие примеры, объясняющие, когда выбирать один метод перед другим?

23

machine-learning reinforcement-learning markov markov-models

Источник

user2204803 09 дек '15 в 14:17

1 ответ

Решение

Другие вопросы по тегам machine-learning reinforcement-learning markov markov-models

user754136 14 дек '15 в 09:20 2015-12-14 09:20 · Accepted Answer · 2015-12-14 09:20

Временная разница - это подход к обучению прогнозированию величины, которая зависит от будущих значений данного сигнала. Его можно использовать для изучения как V-функции, так и Q-функции, тогда как Q-learning - это конкретный алгоритм TD, используемый для изучения Q-функции. Как сказал Дон Реба, вам нужна Q-функция для выполнения действия (например, следуя эпсилон-жадной политике). Если у вас есть только V-функция, вы все равно можете получить Q-функцию, выполнив итерацию по всем возможным следующим состояниям и выбрав действие, которое приведет вас к состоянию с наибольшим V-значением. Для примеров и более глубокого понимания я рекомендую классическую книгу Саттона и Барто.

В RL без модели вы не изучаете функцию перехода состояния (модель) и можете полагаться только на выборки. Тем не менее, вы также можете быть заинтересованы в его изучении, например, потому что вы не можете собрать много образцов и хотите создать несколько виртуальных. В этом случае мы говорим о модели на основе RL. RL на основе моделей довольно распространен в робототехнике, где вы не можете выполнить много реальных симуляций, иначе робот сломается. Это хороший обзор со многими примерами (но он говорит только об алгоритмах поиска политики). Для другого примера взгляните на эту статью. Здесь авторы изучают - наряду с политикой - гауссовский процесс для аппроксимации прямой модели робота, чтобы моделировать траектории и уменьшить количество реальных взаимодействий роботов.