Сканирование и индексация Storm-crawler

Я работал с Nutch 1x для сканирования веб-сайтов и использования Elasticsearch для индексации данных. Я недавно сталкивался с Storm-crawler и мне это нравится, особенно его потоковая природа.

Нужно ли инициировать и создавать сопоставления для моего сервера ES, на который Storm-crawler отправляет данные?

С Nutch, пока у меня был индекс ES и он работал, отображение само по себе позаботилось... за исключением некоторой тонкой настройки. Это то же самое для Stormcrawler? Или я должен инициализировать индекс и отображение раньше?

1 ответ

Решение

Рад слышать, что вам нравится StormCrawler.

Как объяснено в README и видеоруководстве на основе ES2.x, вы должны использовать скрипт ES_IndexInit, чтобы явно установить отображение. Вероятно, это работает без него, но это не будет оптимальным.

Другие вопросы по тегам