Как отформатировать набор данных для прогнозирования временных рядов в AI без водителя в H2O
Для простоты предположим, что на следующий день я пытаюсь предсказать последовательность однозначных переменных, поэтому мои данные будут иметь вид:
input label
x1 x2
x2 x3
x3 x4
... ...
xt xt+1
Тем не менее, мои данные имеют одинаковые последовательности по времени для многих разных пользователей, поэтому они имеют следующую форму:
input label
u1x1 u1x2
u1x2 u1x3
u1x3 u1x4
... ...
u1xt u1xt+1
u2x1 u2x2
u2x2 u2x3
u2x3 u2x4
... ...
u2xt u2xt+1
... ...
unx1 unx2
unx2 unx3
unx3 unx4
... ...
unxt unxt+1
Каков приемлемый способ структурирования этих данных и подачи их в DAI таким образом, чтобы они не рассматривались как одна целая длинная последовательность, а скорее как группа не связанных напрямую последовательностей, параллельных во времени?
Редактировать: данные имеют столбец UserID. Может ли DAI автоматически использовать это для преодоления проблемы, которую я объясняю?
1 ответ
Чтобы отформатировать данные для прогнозирования, вам нужно объединить данные для каждой группы интересов и за определенный период времени (в вашем случае один день).
Поэтому, если ваш прогнозируемый горизонт составляет один день, вам нужно агрегировать по пользователю, вашей однозначной переменной и по дням, чтобы у вас была цель (метка) как общая сумма за день. Вы можете найти документацию о том, как настроить ваши данные для без водителя здесь и здесь.
РЕДАКТИРОВАТЬ в ответ на комментарий:
Вот еще один пример, чтобы объяснить ожидаемый формат данных, используя предположение, что каждый пользователь должен агрегироваться на уровне дня:
Если у вас есть данные за 5 пользователей за один день, ваш набор данных должен иметь только 5 строк, но если у вас есть данные за 5 дней для 5 пользователей, у вас должно быть 50 строк данных.
Затем в AI без водителя, когда вы настраиваете свой эксперимент, вы устанавливаете свою временную группу в столбец User.