Вопросы по DRL (глубокое обучение с подкреплением)
Я впервые применяю глубокое обучение с подкреплением, и у меня есть несколько вопросов по этому поводу (я уже искал ответ, но тщетно):
Как нормализовать значения целей в функции вознаграждения? если у нас есть цель, что значения находятся в диапазоне 10, а другая цель, что значения находятся в диапазоне 1000.
На этапе обучения как мы можем наблюдать за обновлениями весов сети, а также за вычислением градиента?
В настройке с несколькими агентами и эпизодической задаче для вектора «Готово» будет установлено значение «Истина», когда все агенты завершат работу, или когда агент завершит выполнение задачи [agent_index]= Истина, другими словами, мы выиграли Не дожидайтесь завершения работы последнего агента, чтобы установить dones = [True]*number_of_agents
Спасибо.