Как я могу кластеризовать текстовые данные с несколькими столбцами?

Я хотел бы сделать ак средства кластеризации с текстовыми данными книги, имеющими столбцы "заголовок", "жанр", "обзор" и "синопсис".

Я хочу использовать "заголовок" в качестве индикатора или первичного ключа для кластеризации, но я не уверен, как использовать несколько столбцов для этого.

Я знаю, что сначала мне нужно векторизовать данные, но векторизация принимает данные серии, а не значения данных. так что здесь, опять же, я не знаю, как использовать все столбцы, как я хочу.

1 ответ

Решение

Вы можете векторизовать каждый столбец отдельно и объединять результаты.

Просто убедитесь, что вы делаете редкую конкатенацию.

Однако кластеризация текста с помощью k-средних совсем не работает хорошо. K-means очень чувствителен к выбросам и шуму, а тест полон шума. Фундаментальные предположения о k-средних (k сигналов и гауссовской ошибке iid) не верны для текста. Удачи...

Другие вопросы по тегам