Изучение временных различий и обратное распространение

Question

Изучение временных различий и обратное распространение

Я прочитал эту страницу Standford - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html. Я не могу понять, как обучение TD используется в нейронных сетях. Я пытаюсь создать искусственный интеллект, который будет использовать TD-обучение, подобно тому, что они реализовали в нардах. Пожалуйста, объясните, как работает обратное распространение TD.

Я уже упоминал этот вопрос - нейронная сеть и обучение во временной разнице, но я не могу понять принятый ответ. Пожалуйста, объясните другим подходом, если это возможно.

2

machine-learning neural-network reinforcement-learning backpropagation temporal-difference

Источник

user3948486 14 фев '16 в 06:30

1 ответ

Другие вопросы по тегам machine-learning neural-network reinforcement-learning backpropagation temporal-difference

user157726 26 фев '16 в 12:41 2016-02-26 12:41 · Answer 1 · 2016-02-26 12:41

Обучение TD не используется в нейронных сетях. Вместо этого нейронные сети используются в обучении TD для хранения функции value (или q-value).

Я думаю, что вы путаете обратное распространение (концепция нейронных сетей) с начальной загрузкой в RL. Начальная загрузка использует комбинацию недавней информации и предыдущих оценок, чтобы генерировать новые оценки.

Когда пространство состояний велико и функция значений не может быть легко сохранена в таблицах, нейронные сети используются в качестве схемы аппроксимации для хранения функции значений.

Дискуссия о взглядах вперед / назад больше связана с отслеживанием приемлемости и т. Д. В случае, когда RL загружает сервала на шаг впереди во времени. Тем не менее, это не практично, и есть способы (такие как отслеживание соответствия) оставить след и обновить прошлые состояния.

Это не должно быть связано или перепутано с обратным распространением в нейронных сетях. Это не имеет к этому никакого отношения.