Сканирование и индексация Storm-crawler

Question

Сканирование и индексация Storm-crawler

Я работал с Nutch 1x для сканирования веб-сайтов и использования Elasticsearch для индексации данных. Я недавно сталкивался с Storm-crawler и мне это нравится, особенно его потоковая природа.

Нужно ли инициировать и создавать сопоставления для моего сервера ES, на который Storm-crawler отправляет данные?

С Nutch, пока у меня был индекс ES и он работал, отображение само по себе позаботилось... за исключением некоторой тонкой настройки. Это то же самое для Stormcrawler? Или я должен инициализировать индекс и отображение раньше?

2

elasticsearch web-crawler nutch stormcrawler

Источник

user3125823 31 май '17 в 20:07

1 ответ

Решение

Другие вопросы по тегам elasticsearch web-crawler nutch stormcrawler

user432844 01 июн '17 в 07:33 2017-06-01 07:33 · Accepted Answer · 2017-06-01 07:33

Рад слышать, что вам нравится StormCrawler.

Как объяснено в README и видеоруководстве на основе ES2.x, вы должны использовать скрипт ES_IndexInit, чтобы явно установить отображение. Вероятно, это работает без него, но это не будет оптимальным.

1

Источник

user432844 01 июн '17 в 07:33