Как бороться с отложенным вознаграждением в MDP
В моей задаче MDP для состояния S(t) в момент времени t действие A(t) в момент времени t будет вознаграждено после времени k. Например,S1,A1,S2,A2,S3,A3,R1,S4,A4,R2…….Как я могу определить подходящую функцию вознаграждения в модели MDP? И если я хочу решить ее с помощью DQN, имеет ли значение отложенное вознаграждение? Если это имеет значение, что я могу сделать, чтобы изменить метод?