Почему рандомизация выборок модели обучения с подкреплением с помощью аппроксиматора нелинейных функций снижает дисперсию?

Я прочитал диссертацию DQN.

Читая статью DQN, я обнаружил, что случайный выбор и изучение выборок уменьшают расхождение в RL с помощью нелинейного аппроксиматора функций.

Если да, то почему обучение RL с использованием аппроксиматора нелинейных функций расходится, когда входные данные сильно коррелированы?

1 ответ

Решение

Я считаю, что Раздел X (начинающийся на странице 687) " Анализ обучения с временной разницей с помощью аппроксимации функций" дает ответ на ваш вопрос. Таким образом, существуют нелинейные функции, средняя ошибка предсказания которых фактически увеличивается после применения оператора Беллмана TD(0); следовательно, политика в конечном итоге изменится. Как правило, это относится к глубоким нейронным сетям, поскольку они по своей природе нелинейны и имеют тенденцию плохо себя вести с точки зрения оптимизации.

В качестве альтернативы, обучение на независимых и одинаково распределенных (iid) данных позволяет вычислять несмещенные оценки градиента, которые требуются для алгоритмов оптимизации первого порядка, таких как стохастический градиентный спуск (SGD), для схождения к локальному минимуму функции потерь. Вот почему DQN выбирает случайные мини-пакеты из большой памяти воспроизведения, а затем уменьшает потери с помощью RMSProp (расширенная форма SGD).

Другие вопросы по тегам