Кластеризация новостных статей

Question

Кластеризация новостных статей

Мой сценарий довольно прост: у меня есть куча новостных статей (~1k на данный момент), для которых я знаю, что некоторые из них освещают одну и ту же историю / тему. Теперь я хотел бы сгруппировать эти статьи на основе общей истории / темы, то есть на основе их сходства.

То, что я до сих пор делал, - это применял базовые методы НЛП, в том числе удаление стоп-слов и остановку. Я также рассчитал вектор tf-idf для каждой статьи, и с его помощью можно также вычислить, например, косинусное сходство, основываясь на этих tf-idf-векторах. Но сейчас с группировкой статей я немного борюсь. Я вижу два основных способа - возможно, связанных - сделать это:

1) Машинное обучение / кластеризация: я уже немного поиграл с существующими библиотеками кластеризации, с большим или меньшим успехом; смотрите здесь. С одной стороны, алгоритмы типа k-средних требуют ввода количества кластеров, чего я не знаю. Другие алгоритмы требуют параметров, которые также не являются интуитивно понятными (для меня это так).

2) Алгоритмы графа: я могу представить свои данные в виде графа, где статьи являются узлами, а взвешенные числа представляют попарное (косинусное) сходство между статьями. При этом, например, я могу сначала удалить все ребра, которые падают ниже определенного порога, а затем может применить графовые алгоритмы для поиска сильно связанных подграфов.

Короче говоря, я не уверен, куда лучше идти отсюда - я все еще довольно новичок в этой области. Интересно, есть ли для этого лучшие практики или какие-то рекомендации, какие методы / алгоритмы могут (не) применяться в определенных сценариях.

(РЕДАКТИРОВАТЬ: забыл ссылку на мой связанный вопрос)

15

machine-learning nlp cluster-analysis information-retrieval unsupervised-learning

Источник

user874380 10 авг '14 в 11:39

3 ответа

Другие вопросы по тегам machine-learning nlp cluster-analysis information-retrieval unsupervised-learning

user2711596 10 авг '14 в 20:51 2014-08-10 20:51 · Answer 1 · 2014-08-10 20:51

Попробуйте класс HAC- алгоритмов иерархической агломерационной кластеризации с одиночной и полной связью.

Этим алгоритмам не нужно количество кластеров в качестве входных данных.

Основной принцип аналогичен выращиванию минимального связующего дерева в заданном наборе точек данных, а затем остановке на основе пороговых критериев. Тесно связанным классом являются алгоритмы делительной кластеризации, которые сначала строят минимальное связующее дерево, а затем отбрасывают ветвь дерева на основе коэффициентов сходства между кластерами.

user3900322 12 авг '14 в 02:28 2014-08-12 02:28 · Answer 2 · 2014-08-12 02:28

Поскольку вы можете смоделировать свой набор данных в виде графа, вы можете применить стохастическую кластеризацию на основе марковских моделей. Вот ссылка на ресурсы по алгоритму MCL:

Официальное описание диссертации и кодовая база

Плагин Gephi для MCL (для эксперимента и оценки метода)

user3930080 11 авг '14 в 14:52 2014-08-11 14:52 · Answer 3 · 2014-08-11 14:52

Вы также можете попробовать вариацию навеса для k-средних, чтобы создать относительно быструю оценку количества кластеров (k).

http://en.wikipedia.org/wiki/Canopy_clustering_algorithm

Будете ли вы пересчитывать со временем или вам нужны только статичные новости? Я спрашиваю, потому что ваш к может со временем немного измениться.