Цели в градиентах политики при использовании CNN в качестве предиктора
Я хочу создать агент градиента политики, который сможет играть в Doom с помощью этого урока. Но теперь я столкнулся с проблемой:
Какова цель в Policy Gradient
? в этом уроке, в каждой эпохе, мы запускаем эпизод и собираем все данные, такие как состояния, награды и т. д. И после этого, чтобы вычислить потери, мы отправляем их снова в сеть и, например, чтобы сделать Cross Entropy
, Мы используем Logit
и Labels
, Но это одно и то же!(Не так ли?) Как мы можем сделать перекрестную энтропию, если нет разницы между текущим результатом и целями?
Я что-то упустил? Мой главный вопрос: результат политики - это набор действий (3 здесь), и мы должны сравнить их с некоторыми целевыми действиями. Но в этом коде мы отправляем собранные действия в эпизоде с повторным запуском этой процедуры, которая приводит к тем же значениям (логит). у нас нет цели здесь! Что происходит?