Ограничение URL-адресов только для начального домена URL crawler4j

Question

Ограничение URL-адресов только для начального домена URL crawler4j

Я хочу, чтобы crawler4j посещал страницы таким образом, чтобы они принадлежали домену только в семенах. Там несколько доменов в семени. Как мне это сделать?

Предположим, я добавляю начальные URL:

www.google.com
www.yahoo.com
www.wikipedia.com

Теперь я запускаю сканирование, но хочу, чтобы мой сканер посещал страницы (так же, как shouldVisit()) только в трех вышеуказанных доменах. Очевидно, есть внешние ссылки, но я хочу, чтобы мой сканер ограничивался только этими доменами. Субдомен, подпапки в порядке, но не за пределами этих доменов.

1

java web-crawler crawler4j

Источник

user2211395 09 ноя '13 в 11:18

2 ответа

Решение

Размещено от имени ФП:

Получил решение здесь: http://code.google.com/p/crawler4j/issues/detail?id=94

1

Источник

user472495 13 ноя '13 в 01:05

Другие вопросы по тегам java web-crawler crawler4j

user139985 09 ноя '13 в 11:34 2013-11-09 11:34 · Accepted Answer · 2013-11-09 11:34

Если вы пытаетесь ограничить искатель только URL-адресами с теми же доменами, что и у исходных URL-адресов, то:

Извлеките доменные имена из начальных URL.
Напишите ваш класс сканера (который расширяет WebCrawler) с shouldVisit метод отфильтровать любые URL, чьи домены не входят в набор.
Сконфигурируйте контроллер, добавьте семена и запустите его обычным способом... согласно примеру здесь.