Как получается уравнение в "Стратегиях эволюции как масштабируемой альтернативе обучению усилению"?

Question

Как получается уравнение в "Стратегиях эволюции как масштабируемой альтернативе обучению усилению"?

Как излагается уравнение на странице 3 в документе OpenAI "Стратегии развития как масштабируемая альтернатива обучению в области подкрепления"?

-3

machine-learning reinforcement-learning evolutionary-algorithm

Источник

user3113320 25 май '18 в 04:38

1 ответ

Решение

Другие вопросы по тегам machine-learning reinforcement-learning evolutionary-algorithm

user9184597 25 май '18 в 14:23 2018-05-25 14:23 · Accepted Answer · 2018-05-25 14:23

Оно не "выведено" в том смысле, что это уравнение не было естественной прогрессией по сравнению с предыдущим уравнением, представленным в статье.

Эта формула демонстрирует, как авторы решили применить стохастическое градиентное восхождение. Это математическое представление алгоритма, который они использовали.

Прямо под этим уравнением они объясняют, как оно работает:

Результирующий алгоритм многократно выполняет две фазы: 1) Стохастически возмущает параметры политики и оценивает результирующие параметры, выполняя эпизод в среде, и 2) Объединяя результаты этих эпизодов, вычисляя оценку стохастического градиента и обновляя параметры,

Это может помочь перезапустить статью с самого начала и читать очень медленно и внимательно. Если вы столкнетесь с чем-то, что не имеет смысла, найдите его и не продолжайте читать статью, пока не поймете, что авторы пытаются вам сказать.