Как я могу кластеризовать текстовые данные с несколькими столбцами?
Я хотел бы сделать ак средства кластеризации с текстовыми данными книги, имеющими столбцы "заголовок", "жанр", "обзор" и "синопсис".
Я хочу использовать "заголовок" в качестве индикатора или первичного ключа для кластеризации, но я не уверен, как использовать несколько столбцов для этого.
Я знаю, что сначала мне нужно векторизовать данные, но векторизация принимает данные серии, а не значения данных. так что здесь, опять же, я не знаю, как использовать все столбцы, как я хочу.
1 ответ
Вы можете векторизовать каждый столбец отдельно и объединять результаты.
Просто убедитесь, что вы делаете редкую конкатенацию.
Однако кластеризация текста с помощью k-средних совсем не работает хорошо. K-means очень чувствителен к выбросам и шуму, а тест полон шума. Фундаментальные предположения о k-средних (k сигналов и гауссовской ошибке iid) не верны для текста. Удачи...