График времени, чтобы посетить страницу снова
Я настроил Nutch 2.3.1 с экосистемой Hadoop/Hbase. У меня есть несколько сотен доменов, которые я хочу получить. Я забрал многие из них до сих пор. Мне любопытно, что когда Nutch снова посетит уже извлеченный документ и повторно загрузит его, если он будет обновлен. Есть какой-нибудь параметр управления или что-то в этом роде?
1 ответ
Nutch имеет несколько способов настройки при повторной загрузке страницы (см. https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml).
db.fetch.interval.default
(начальное значение выборки, назначенное при первой загрузке страницы). Имейте в виду, что реализация по умолчанию (db.fetch.schedule.class
https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml#L396) всегда добавляет интервал выборки к времени последней выборки, поэтому не является идеальным. Я бы порекомендовал перейти на алгоритм адаптивного графика выборки, который попытается оптимизировать время следующей выборки в зависимости от того, как часто обновляется страница ( https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/AdaptiveFetchSchedule.java).
Имейте в виду, что вы также можете указать время получения URL-адреса (во время вставки), используя nutch.fetchInterval
ключ метаданных в начальном файле ( https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/InjectorJob.java#L59).