Apache Nutch 2.3.1 Управление домашней страницей сайта

Я настроил Nutch 2.3.1 для сканирования некоторых новостных сайтов. Поскольку домашние страницы веб-сайтов изменятся через один день, поэтому я хочу обрабатывать домашнюю страницу по-другому, поэтому для домашней страницы сканируются только основные категории, а не текст, так как через некоторое время текст изменится (я наблюдал похожие вещи в Google), Для остальных страниц, он работает нормально (сканирование текста и т. Д.)

1 ответ

На данный момент Nutch не предлагает какой-либо специальной обработки для домашних страниц, это всего лишь еще один URL для сканирования. Если вы хотите сделать это, вам, вероятно, придется настроить некоторые части Nutch.

Если вы собираете фиксированный набор URL-адресов (который вы обычно помещаете в исходный файл), вы можете прикрепить некоторые метаданные к этим URL-адресам и использовать другую стратегию для этих URL-адресов. Например, установка действительно высокой оценки и короткого интервала выборки ( https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/InjectorJob.java#L56-L59).

Поскольку задание генератора будет сортировать URL-адреса по количеству баллов, это должно работать до тех пор, пока все остальные URL-адреса имеют оценку ниже значения, которое вы используете для начальных URL-адресов. Имейте в виду, что это приведет к тому, что Nutch будет сканировать эти URL-адреса каждый раз, когда начинается новый цикл (поскольку начальные URL-адреса будут все время находиться сверху).

Если вы обнаружите новые домашние страницы во время обычного цикла сканирования, это будет непросто, потому что у Nutch нет никакого способа определить, является ли данный URL домашней страницей или нет. В этом случае вам нужно проверить, является ли текущий URL домашней страницей, если это действительно домашняя страница, то вам нужно изменить интервал оценки / выборки, чтобы этот URL попадал в топ-рейтинг URL-адресов.

Этот обходной путь может вызвать некоторые проблемы: в конечном итоге Nutch может сканировать только домашние страницы, а не остальные URL-адреса, что не очень хорошо.

Вы также можете написать свой собственный генератор, таким образом у вас будет больше контроля и вы не будете полагаться только на счет, а только на интервал выборки.

Полное раскрытие: хотя я использовал подобный подход в прошлом, мы в конечном итоге изменили эту систему на использование StormCrawler (мы создавали поисковую систему новостей), поэтому нам требовался больший контроль над процессом извлечения страниц (пакетный характер Nutch это не очень подходит для этого варианта использования), а также для некоторых других бизнес-ситуаций, которые требовали более подход NRT.

Другие вопросы по тегам