Машинное обучение: особенности структурирования для классификации, когда несколько строк принадлежат одному и тому же идентификатору
Вот моя проблема: например, у меня есть таблица, содержащая информацию о поведении людей за месяц (несколько функций), у каждого человека есть уникальный идентификатор и уникальный ярлык (0 и 1). Я хочу использовать эти функции, чтобы предсказать, принадлежит ли клиент к группе 0 / 1.
Однако проблема заключается в том, что функции каждого идентификатора собираются и записываются несколько раз, а это означает, что у меня несколько строк принадлежат одному идентификатору. Итак, как я могу структурировать свои данные и построить матрицу объектов, где один идентификатор соответствует одному ряду объектов и одному ярлыку?
Особенность
ID feature1 feature2 feature3 ...
1 2 1.5 1 ...
2 1 3 0 ...
3 1 2 1 ...
1 2.5 1 1 ...
3 0.8 1 0 ...
...
Lable
ID lable
1 0
2 1
3 0
...
пример: два кадра данных
Есть ли способ, который может максимально учитывать эти несколько рядов объектов и создавать матрицу объектов, соответствующую друг другу?
Моя личная идея на данный момент: во-первых, вычислите время, которое каждый ID показывает как новую функцию. Во-вторых, кластеризуйте каждый идентификатор в два кластера и используйте центр кластера большинства из них в качестве массива признаков этого идентификатора.
Кто-нибудь может мне помочь? Большое спасибо!
1 ответ
На разработку функций будут в значительной степени влиять любые ваши гипотезы о данных и конечном использовании инженерных функций.
Для начала вы можете объединить все функции на уровне идентификатора с помощью основных статистических функций, таких как MIN, MAX, NMISS, COUNT, SUM, MEAN, STDEV
и т.д. Итак, если у вас есть f
особенности и использование k
статистика, вы в конечном итоге f*k
независимые переменные.
Кроме того, в зависимости от данных - вам может быть интересно взглянуть на специальные категории - например, вас может заинтересовать количество случаев feature_1 >= 10
для каждого идентификатора, и это может быть дополнительной переменной.