Q-обучение с приближением линейной функции
Я хотел бы получить некоторые полезные инструкции о том, как использовать алгоритм Q-обучения с приближением функции. Для базового алгоритма Q-обучения я нашел примеры и, думаю, понял. В случае использования функции приближения я попадаю в неприятности. Может ли кто-нибудь дать мне объяснение на коротком примере, как это работает?
Что я знаю:
- Вместо использования матрицы для Q-значений мы используем особенности и параметры.
- Сделайте аппроксимацию с линейной комбинацией параметров и параметров.
- Обновите параметры.
Я проверил эту статью: Q-обучение с приближением функции
Но я не могу найти какой-либо полезный учебник, как его использовать.
Спасибо за помощь!
1 ответ
На мой взгляд, это одна из лучших ссылок для начала. Это хорошо написано с несколькими примерами псевдокода. В вашем случае вы можете упростить алгоритмы, игнорируя кривые соответствия.
Кроме того, по моему опыту и в зависимости от вашего варианта использования, Q-Learning может работать не очень хорошо (иногда требуется огромное количество данных опыта). Вы можете попробовать значение Fitted-Q, например, которое является пакетным алгоритмом.