Уловка обработки страниц раздела Apache Nutch

Я настроил Nutch 2.3.1 с экосистемой Hadoop/Hbase. Идея состоит в том, чтобы сканировать и индексировать страницы истории в основном. Для этого я подготовил семя некоторых доменов. Теперь я сталкиваюсь с некоторой логической проблемой в Nutch, которая заключается в том, что она ведет себя подобно всем уровням домена. Давайте приведем пример. Предположим, что после извлечения домашней страницы нескольких доменов есть некоторые документы, которые на самом деле не являются страницами-историями, а представляют собой некоторые разделы, например, на новостных сайтах есть разные ссылки на категории новостей. Если пользователь нажимает на категорию, например, нация, то на новой странице содержится много новостей этой категории. Nutch сканирует эту страницу, и некоторые тексты многих страниц сохраняются как ее содержимое. Через некоторое время эти страницы изменятся (для обновленных новостей), если такие страницы проиндексированы, то после поиска, если пользователь перейдет на эту страницу, текст изменится. Вот только пример страницы.

Как и где я должен обращаться с такими случаями? Я думаю, что это должно быть обработано на некоторой фазе Nutch, чтобы он мог извлекать такие страницы, указывать свои URL для продвижения вперед, но не индексировать такие страницы. Доступен ли этот вариант в Nutch и если нет, каковы возможные пути?

1 ответ

Вам нужно реализовать IndexingFilter, который будет возвращать ноль для страниц, которые вы не хотите индексировать.

В Nutch 1.14 вы можете использовать JexlIndexingFilter с простым выражением JEXL в URL, но я не думаю, что это было перенесено в Nutch 2.x.

Если вы знаете формат URL-адресов, которые вы хотите отфильтровать из индексации, написание такого фильтра должно быть простым.

Другие вопросы по тегам