Многоагентное Q-обучение с Replay опыта
Читая статью об arxiv, я узнал, что воспроизведение опыта не очень жизнеспособно с независимым Q-learning (IQL). Поскольку воспроизведение опыта основано на прошлом опыте, в котором другие агенты в IQL имели бы другие политики, этот опыт устарел. Все идет нормально.
Тем не менее, статья, по-видимому, подразумевает, что воспроизведение опыта хорошо работает в сценариях с несколькими агентами, когда все агенты используют одну модель (совместное использование параметров). Я не могу понять почему; возможно, кто-то здесь мог бы объяснить это мне?
Насколько мне известно, буфер воспроизведения опыта просто экономит (s,s',a,r)
- кортежи и опираются на них при обучении модели. Однако не будут ли эти переживания устаревшими? В конце концов, из этого опыта кортеж все еще не может сказать, какую политику использовали другие агенты.
Есть мысли на эту тему?