Q-обучение с приближением линейной функции

Question

Q-обучение с приближением линейной функции

Я хотел бы получить некоторые полезные инструкции о том, как использовать алгоритм Q-обучения с приближением функции. Для базового алгоритма Q-обучения я нашел примеры и, думаю, понял. В случае использования функции приближения я попадаю в неприятности. Может ли кто-нибудь дать мне объяснение на коротком примере, как это работает?

Что я знаю:

Вместо использования матрицы для Q-значений мы используем особенности и параметры.
Сделайте аппроксимацию с линейной комбинацией параметров и параметров.
Обновите параметры.

Я проверил эту статью: Q-обучение с приближением функции

Но я не могу найти какой-либо полезный учебник, как его использовать.

Спасибо за помощь!

0

algorithm reinforcement-learning q-learning function-approximation

Источник

user6099702 22 мар '16 в 16:40

1 ответ

Решение

Другие вопросы по тегам algorithm reinforcement-learning q-learning function-approximation

user6113498 08 апр '16 в 12:26 2016-04-08 12:26 · Accepted Answer · 2016-04-08 12:26

На мой взгляд, это одна из лучших ссылок для начала. Это хорошо написано с несколькими примерами псевдокода. В вашем случае вы можете упростить алгоритмы, игнорируя кривые соответствия.

Кроме того, по моему опыту и в зависимости от вашего варианта использования, Q-Learning может работать не очень хорошо (иногда требуется огромное количество данных опыта). Вы можете попробовать значение Fitted-Q, например, которое является пакетным алгоритмом.