Python: кластеризация с использованием текста, категорий и даты

Пытаюсь сделать кластеризацию техпроцессов. в моем наборе данных есть много текстовых данных, которые я уже сгруппировал с помощью TF-IDF и k-means. Теперь я хочу также использовать некоторые другие функции, такие как названия отделов (которые являются категориальными) и дата (или сколько времени занимает процесс в днях).

Я немного не понимаю, как это сделать. Могу ли я просто составить матрицу со всеми функциями вместе (Матрица TF-IDF для описаний + Отделы (с использованием отличительного номера для каждого отдела)+ количество дней для продолжительности)?

Вот образец моего набора данных:

Буду благодарен за любой совет

0 ответов

Другие вопросы по тегам