Вопросы по DRL (глубокое обучение с подкреплением)

Question

Я впервые применяю глубокое обучение с подкреплением, и у меня есть несколько вопросов по этому поводу (я уже искал ответ, но тщетно):

Как нормализовать значения целей в функции вознаграждения? если у нас есть цель, что значения находятся в диапазоне 10, а другая цель, что значения находятся в диапазоне 1000.
На этапе обучения как мы можем наблюдать за обновлениями весов сети, а также за вычислением градиента?
В настройке с несколькими агентами и эпизодической задаче для вектора «Готово» будет установлено значение «Истина», когда все агенты завершат работу, или когда агент завершит выполнение задачи [agent_index]= Истина, другими словами, мы выиграли Не дожидайтесь завершения работы последнего агента, чтобы установить dones = [True]*number_of_agents

Спасибо.

reinforcement-learning multi-agent wandb

Источник

01 янв '22 в 15:50

0 ответов

Другие вопросы по тегам reinforcement-learning multi-agent wandb