Каков правильный подход к хранению состояния в DQN-HER данных временных рядов для CNN?

Вот сценарий:

Я хочу преобразовать серию курсов акций за t шагов для использования в CNN, чтобы попытаться предсказать будущее состояние за t+n шагов.

Я думаю, что нужно сделать следующее, но я понятия не имею, насколько это правильно или неправильно:

Возьмите "закрывающую" цену запаса для 32 временных шагов как одну пробную партию. Создайте в общей сложности 4 из этих пакетов, которые будут сохранены как все состояние, при этом каждая выборка перемещается на t+1 шаг вперед. Таким образом, по сути, 2-я, 3-я и 4-я выборки по-прежнему будут содержать временные интервалы, которые произошли на предыдущих шагах.

Я делаю это таким образом, так как я хочу рассматривать каждый образец как единое изображение, и на основе другого прочтения предполагается, что модели необходимо дать "контекст" о состоянии (например, движущийся автомобиль в одном образце /image вы не можете определить скорость, но с 4 вы можете). Таким образом, каждая выборка из 32 временных шагов представляет 1 изображение. С 4 образцами я получаю 4 изображения для понимания контекста.

Итак, возьмите эти 4 партии как одну мастер-партию для передачи в модель CNN. Тензор имел бы грубую форму:

[
    [[],[],[]...x32]
    [[],[],[]...x32]
    [[],[],[]...x32]
    [[],[],[]...x32]
]

Это будет одно полное состояние, которое будет сохранено в памяти воспроизведения.

Таким образом, следующим состоянием будет еще одна партия такой же формы, но она перемещается на 4 временных шага вперед. Таким образом, временные шаги начального состояния: t+0, t+1, t+2, t+3, а следующие временные шаги состояния: t+4, t+5, t+6, t+7.

Это моя первая проблема с пониманием.

Второй: как включить цель в это состояние для модели DQN-HER? Я знаю, что это требует состояния и цели, но как бы вы связали цель с таким тензором? Будет ли в этом случае просто конкатенация следующего состояния?

0 ответов

Другие вопросы по тегам