Изучение временных различий и обратное распространение
Я прочитал эту страницу Standford - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html. Я не могу понять, как обучение TD используется в нейронных сетях. Я пытаюсь создать искусственный интеллект, который будет использовать TD-обучение, подобно тому, что они реализовали в нардах. Пожалуйста, объясните, как работает обратное распространение TD.
Я уже упоминал этот вопрос - нейронная сеть и обучение во временной разнице, но я не могу понять принятый ответ. Пожалуйста, объясните другим подходом, если это возможно.
1 ответ
Обучение TD не используется в нейронных сетях. Вместо этого нейронные сети используются в обучении TD для хранения функции value (или q-value).
Я думаю, что вы путаете обратное распространение (концепция нейронных сетей) с начальной загрузкой в RL. Начальная загрузка использует комбинацию недавней информации и предыдущих оценок, чтобы генерировать новые оценки.
Когда пространство состояний велико и функция значений не может быть легко сохранена в таблицах, нейронные сети используются в качестве схемы аппроксимации для хранения функции значений.
Дискуссия о взглядах вперед / назад больше связана с отслеживанием приемлемости и т. Д. В случае, когда RL загружает сервала на шаг впереди во времени. Тем не менее, это не практично, и есть способы (такие как отслеживание соответствия) оставить след и обновить прошлые состояния.
Это не должно быть связано или перепутано с обратным распространением в нейронных сетях. Это не имеет к этому никакого отношения.