Q-обучение с приближением линейной функции

Я хотел бы получить некоторые полезные инструкции о том, как использовать алгоритм Q-обучения с приближением функции. Для базового алгоритма Q-обучения я нашел примеры и, думаю, понял. В случае использования функции приближения я попадаю в неприятности. Может ли кто-нибудь дать мне объяснение на коротком примере, как это работает?

Что я знаю:

  1. Вместо использования матрицы для Q-значений мы используем особенности и параметры.
  2. Сделайте аппроксимацию с линейной комбинацией параметров и параметров.
  3. Обновите параметры.

Я проверил эту статью: Q-обучение с приближением функции

Но я не могу найти какой-либо полезный учебник, как его использовать.

Спасибо за помощь!

1 ответ

Решение

На мой взгляд, это одна из лучших ссылок для начала. Это хорошо написано с несколькими примерами псевдокода. В вашем случае вы можете упростить алгоритмы, игнорируя кривые соответствия.

Кроме того, по моему опыту и в зависимости от вашего варианта использования, Q-Learning может работать не очень хорошо (иногда требуется огромное количество данных опыта). Вы можете попробовать значение Fitted-Q, например, которое является пакетным алгоритмом.

Другие вопросы по тегам