Временная иерархическая РНС с вариационным выводом

Я пытаюсь реализовать или хотя бы в принципе имитировать следующее поведение:

(A) "повторяющаяся обработка с временной иерархией" с

(B) "вариационная единица"

как показано на рисунке S10 (на странице 41) в этой статье, (1) Производительность на уровне человека в многопользовательских играх от первого лица с глубоким обучением с подкреплением на основе популяции.

Мне кажется, что рисунок 1 (на странице 3) в другом документе, (2) Быстро-медленные рекуррентные нейронные сети и соответствующий код, похоже, похож на то, что я хотел бы сделать в (A), но я не уверен, что тонкие различия, если таковые имеются.

Предполагая, что сопутствующий код может достичь (A), какие изменения я должен внести в код, чтобы также достичь (B)?

Можно ли использовать последнее быстрое ядро ​​LSTM в качестве вариационного апостериорного Q?

Нужно ли мне минимизировать разницу между входом в медленное ядро ​​LSTM и выходом быстрого ядра LSTM (как в обычном VAE), или будет достаточно минимизировать многомерное KL-отклонение между распределениями P(предыдущее) и Q(апостериорное)?

Любые указатели будут оценены. Спасибо.

0 ответов