Сканирование и индексация Storm-crawler
Я работал с Nutch 1x для сканирования веб-сайтов и использования Elasticsearch для индексации данных. Я недавно сталкивался с Storm-crawler и мне это нравится, особенно его потоковая природа.
Нужно ли инициировать и создавать сопоставления для моего сервера ES, на который Storm-crawler отправляет данные?
С Nutch, пока у меня был индекс ES и он работал, отображение само по себе позаботилось... за исключением некоторой тонкой настройки. Это то же самое для Stormcrawler? Или я должен инициализировать индекс и отображение раньше?
1 ответ
Рад слышать, что вам нравится StormCrawler.
Как объяснено в README и видеоруководстве на основе ES2.x, вы должны использовать скрипт ES_IndexInit, чтобы явно установить отображение. Вероятно, это работает без него, но это не будет оптимальным.