Машинное обучение: особенности структурирования для классификации, когда несколько строк принадлежат одному и тому же идентификатору

Вот моя проблема: например, у меня есть таблица, содержащая информацию о поведении людей за месяц (несколько функций), у каждого человека есть уникальный идентификатор и уникальный ярлык (0 и 1). Я хочу использовать эти функции, чтобы предсказать, принадлежит ли клиент к группе 0 / 1.

Однако проблема заключается в том, что функции каждого идентификатора собираются и записываются несколько раз, а это означает, что у меня несколько строк принадлежат одному идентификатору. Итак, как я могу структурировать свои данные и построить матрицу объектов, где один идентификатор соответствует одному ряду объектов и одному ярлыку?

Особенность

ID feature1 feature2 feature3 ...
1  2        1.5      1        ...
2  1        3        0        ...
3  1        2        1        ...
1  2.5      1        1        ...
3  0.8      1        0        ...
...

Lable

ID lable
1  0
2  1
3  0
...

пример: два кадра данных

Есть ли способ, который может максимально учитывать эти несколько рядов объектов и создавать матрицу объектов, соответствующую друг другу?

Моя личная идея на данный момент: во-первых, вычислите время, которое каждый ID показывает как новую функцию. Во-вторых, кластеризуйте каждый идентификатор в два кластера и используйте центр кластера большинства из них в качестве массива признаков этого идентификатора.

Кто-нибудь может мне помочь? Большое спасибо!

1 ответ

На разработку функций будут в значительной степени влиять любые ваши гипотезы о данных и конечном использовании инженерных функций.

Для начала вы можете объединить все функции на уровне идентификатора с помощью основных статистических функций, таких как MIN, MAX, NMISS, COUNT, SUM, MEAN, STDEV и т.д. Итак, если у вас есть f особенности и использование k статистика, вы в конечном итоге f*k независимые переменные.

Кроме того, в зависимости от данных - вам может быть интересно взглянуть на специальные категории - например, вас может заинтересовать количество случаев feature_1 >= 10 для каждого идентификатора, и это может быть дополнительной переменной.

Другие вопросы по тегам