График времени, чтобы посетить страницу снова

Question

График времени, чтобы посетить страницу снова

Я настроил Nutch 2.3.1 с экосистемой Hadoop/Hbase. У меня есть несколько сотен доменов, которые я хочу получить. Я забрал многие из них до сих пор. Мне любопытно, что когда Nutch снова посетит уже извлеченный документ и повторно загрузит его, если он будет обновлен. Есть какой-нибудь параметр управления или что-то в этом роде?

0

apache web-crawler nutch nutch2

Источник

user3454410 04 май '18 в 07:28

1 ответ

Другие вопросы по тегам apache web-crawler nutch nutch2

user1977773 04 май '18 в 09:33 2018-05-04 09:33 · Answer 1 · 2018-05-04 09:33

Nutch имеет несколько способов настройки при повторной загрузке страницы (см. https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml).

db.fetch.interval.default (начальное значение выборки, назначенное при первой загрузке страницы). Имейте в виду, что реализация по умолчанию (db.fetch.schedule.class https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml#L396) всегда добавляет интервал выборки к времени последней выборки, поэтому не является идеальным. Я бы порекомендовал перейти на алгоритм адаптивного графика выборки, который попытается оптимизировать время следующей выборки в зависимости от того, как часто обновляется страница ( https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/AdaptiveFetchSchedule.java).

Имейте в виду, что вы также можете указать время получения URL-адреса (во время вставки), используя nutch.fetchInterval ключ метаданных в начальном файле ( https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/InjectorJob.java#L59).