Временная иерархическая РНС с вариационным выводом
Я пытаюсь реализовать или хотя бы в принципе имитировать следующее поведение:
(A) "повторяющаяся обработка с временной иерархией" с
(B) "вариационная единица"
как показано на рисунке S10 (на странице 41) в этой статье, (1) Производительность на уровне человека в многопользовательских играх от первого лица с глубоким обучением с подкреплением на основе популяции.
Мне кажется, что рисунок 1 (на странице 3) в другом документе, (2) Быстро-медленные рекуррентные нейронные сети и соответствующий код, похоже, похож на то, что я хотел бы сделать в (A), но я не уверен, что тонкие различия, если таковые имеются.
Предполагая, что сопутствующий код может достичь (A), какие изменения я должен внести в код, чтобы также достичь (B)?
Можно ли использовать последнее быстрое ядро LSTM в качестве вариационного апостериорного Q?
Нужно ли мне минимизировать разницу между входом в медленное ядро LSTM и выходом быстрого ядра LSTM (как в обычном VAE), или будет достаточно минимизировать многомерное KL-отклонение между распределениями P(предыдущее) и Q(апостериорное)?
Любые указатели будут оценены. Спасибо.