Верстак Carrot2 не может обрабатывать большие данные

Question

Верстак Carrot2 не может обрабатывать большие данные

Я хотел кластеризовать свой набор данных с помощью carrot2 workbench. У меня есть входной файл XML с 65536 документы. Я использую алгоритм кластеризации Lingo.

Но когда я запускаю процесс, верстак возвращает результат в течение нескольких секунд, имея все документы в кластере "другие темы".

Я проверил кластеризацию с меньшими наборами данных, и я получаю результаты.

0

xml cluster-analysis carrot2

Источник

user848377 11 мар '15 в 07:20

1 ответ

Другие вопросы по тегам xml cluster-analysis carrot2

user844267 11 мар '15 в 15:58 2015-03-11 15:58 · Answer 1 · 2015-03-11 15:58

Алгоритм Carrot2 Lingo был разработан для небольших наборов данных, до тысячи или около того документов. Для больших наборов данных вы можете попробовать STC, который лучше масштабируется.

Независимо от алгоритма, Carrot2 обрабатывает все данные в памяти, поэтому он не будет масштабироваться до миллионов документов. В последнем случае вы можете посмотреть на Apache Mahout, например.