График времени, чтобы посетить страницу снова

Я настроил Nutch 2.3.1 с экосистемой Hadoop/Hbase. У меня есть несколько сотен доменов, которые я хочу получить. Я забрал многие из них до сих пор. Мне любопытно, что когда Nutch снова посетит уже извлеченный документ и повторно загрузит его, если он будет обновлен. Есть какой-нибудь параметр управления или что-то в этом роде?

1 ответ

Nutch имеет несколько способов настройки при повторной загрузке страницы (см. https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml).

db.fetch.interval.default (начальное значение выборки, назначенное при первой загрузке страницы). Имейте в виду, что реализация по умолчанию (db.fetch.schedule.class https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml#L396) всегда добавляет интервал выборки к времени последней выборки, поэтому не является идеальным. Я бы порекомендовал перейти на алгоритм адаптивного графика выборки, который попытается оптимизировать время следующей выборки в зависимости от того, как часто обновляется страница ( https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/AdaptiveFetchSchedule.java).

Имейте в виду, что вы также можете указать время получения URL-адреса (во время вставки), используя nutch.fetchInterval ключ метаданных в начальном файле ( https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/InjectorJob.java#L59).

Другие вопросы по тегам