Как отформатировать набор данных для прогнозирования временных рядов в AI без водителя в H2O

Question

Как отформатировать набор данных для прогнозирования временных рядов в AI без водителя в H2O

Для простоты предположим, что на следующий день я пытаюсь предсказать последовательность однозначных переменных, поэтому мои данные будут иметь вид:

input    label
   x1       x2
   x2       x3
   x3       x4
  ...      ...
   xt      xt+1

Тем не менее, мои данные имеют одинаковые последовательности по времени для многих разных пользователей, поэтому они имеют следующую форму:

input    label
 u1x1     u1x2
 u1x2     u1x3
 u1x3     u1x4
  ...      ...
 u1xt   u1xt+1
 u2x1     u2x2
 u2x2     u2x3
 u2x3     u2x4
  ...      ...
 u2xt   u2xt+1
  ...      ...
 unx1     unx2
 unx2     unx3
 unx3     unx4
  ...      ...
 unxt   unxt+1

Каков приемлемый способ структурирования этих данных и подачи их в DAI таким образом, чтобы они не рассматривались как одна целая длинная последовательность, а скорее как группа не связанных напрямую последовательностей, параллельных во времени?

Редактировать: данные имеют столбец UserID. Может ли DAI автоматически использовать это для преодоления проблемы, которую я объясняю?

1

time-series dataset h2o driverless-ai

Источник

user4564080 17 авг '18 в 18:31

1 ответ

Другие вопросы по тегам time-series dataset h2o driverless-ai

user6312126 17 авг '18 в 21:54 2018-08-17 21:54 · Answer 1 · 2018-08-17 21:54

Чтобы отформатировать данные для прогнозирования, вам нужно объединить данные для каждой группы интересов и за определенный период времени (в вашем случае один день).

Поэтому, если ваш прогнозируемый горизонт составляет один день, вам нужно агрегировать по пользователю, вашей однозначной переменной и по дням, чтобы у вас была цель (метка) как общая сумма за день. Вы можете найти документацию о том, как настроить ваши данные для без водителя здесь и здесь.

РЕДАКТИРОВАТЬ в ответ на комментарий:

Вот еще один пример, чтобы объяснить ожидаемый формат данных, используя предположение, что каждый пользователь должен агрегироваться на уровне дня:

Если у вас есть данные за 5 пользователей за один день, ваш набор данных должен иметь только 5 строк, но если у вас есть данные за 5 дней для 5 пользователей, у вас должно быть 50 строк данных.

Затем в AI без водителя, когда вы настраиваете свой эксперимент, вы устанавливаете свою временную группу в столбец User.