Верстак Carrot2 не может обрабатывать большие данные
Я хотел кластеризовать свой набор данных с помощью carrot2 workbench. У меня есть входной файл XML с 65536
документы. Я использую алгоритм кластеризации Lingo.
Но когда я запускаю процесс, верстак возвращает результат в течение нескольких секунд, имея все документы в кластере "другие темы".
Я проверил кластеризацию с меньшими наборами данных, и я получаю результаты.
1 ответ
Алгоритм Carrot2 Lingo был разработан для небольших наборов данных, до тысячи или около того документов. Для больших наборов данных вы можете попробовать STC, который лучше масштабируется.
Независимо от алгоритма, Carrot2 обрабатывает все данные в памяти, поэтому он не будет масштабироваться до миллионов документов. В последнем случае вы можете посмотреть на Apache Mahout, например.