Ограничение URL-адресов только для начального домена URL crawler4j

Я хочу, чтобы crawler4j посещал страницы таким образом, чтобы они принадлежали домену только в семенах. Там несколько доменов в семени. Как мне это сделать?

Предположим, я добавляю начальные URL:

  • www.google.com
  • www.yahoo.com
  • www.wikipedia.com

Теперь я запускаю сканирование, но хочу, чтобы мой сканер посещал страницы (так же, как shouldVisit()) только в трех вышеуказанных доменах. Очевидно, есть внешние ссылки, но я хочу, чтобы мой сканер ограничивался только этими доменами. Субдомен, подпапки в порядке, но не за пределами этих доменов.

2 ответа

Решение

Если вы пытаетесь ограничить искатель только URL-адресами с теми же доменами, что и у исходных URL-адресов, то:

  1. Извлеките доменные имена из начальных URL.

  2. Напишите ваш класс сканера (который расширяет WebCrawler) с shouldVisit метод отфильтровать любые URL, чьи домены не входят в набор.

  3. Сконфигурируйте контроллер, добавьте семена и запустите его обычным способом... согласно примеру здесь.

Размещено от имени ФП:

Получил решение здесь: http://code.google.com/p/crawler4j/issues/detail?id=94

Другие вопросы по тегам