Перекодировать контекстный вектор после каждого шага декодирования?
В настоящее время я работаю над моделью последовательности, которая направлена на то, чтобы предсказать ориентацию головы человека, который следит за виртуальной реальностью за произвольное количество кадров в будущем.
Используя парадигму кодер-декодер, предыдущие 100 кадров ориентации головы человека и предыдущие 100 кадров видео подаются в кодер для создания контекста. (100 здесь произвольно, но ради записи я буду использовать 100 кадров, поэтому данные предыдущей последовательности будут [T(-100) - T0 ])
Затем контекст подается в декодер и кадр за кадром выводит распределение вероятностей того, где зритель будет смотреть на T1 для первой итерации декодирования, T2 для второй итерации и т.д.
Поэтому контекстный вектор имеет большой вес на плечах, кодируя данные всей предыдущей последовательности. Поэтому, чтобы помочь с выводом декодера, на каждом этапе декодирования я хочу предоставить декодеру доступ к будущим 100 кадрам видео. Поэтому в момент времени T2 декодер будет на второй итерации и будет иметь доступ к 102-му видеокадру для использования для свертки, значимости и т. Д.
То, как мы думали достичь этого, состоит в том, чтобы кодер повторно кодировал вектор контекста на каждой итерации декодирования контекста и заменял вход кодера, чтобы он содержал данные будущего видеокадра.
Так, например, на второй итерации декодирования мы бы повторно закодировали контекст, но заменили данные для T(-100) на декодированный вывод для T1, а видеокадр для T(-100) на видеокадр для Т2. Мы продолжим итерацию декодирования таким образом.
Предполагается, что это будет способ предоставить декодеру информацию о предстоящем видео и использовать его предыдущие прогнозы для обеспечения целостности будущих прогнозов движения. Эта идея перекодирования контекста была также представлена Йоханнесом Баптистом из Университета Амстердама в этой статье, хотя я студент бакалавриата и все еще новичок в этой области, поэтому эту статью было немного сложно понять.
Если у кого-то есть интуиция в отношении того, что перекодирование контекста на каждом этапе декодирования будет влиять на модель кодер-декодер, и может предоставить любую информацию или ресурсы для дальнейшего изучения, это было бы здорово, большое спасибо.