Ограничение URL-адресов только для начального домена URL crawler4j
Я хочу, чтобы crawler4j посещал страницы таким образом, чтобы они принадлежали домену только в семенах. Там несколько доменов в семени. Как мне это сделать?
Предположим, я добавляю начальные URL:
- www.google.com
- www.yahoo.com
- www.wikipedia.com
Теперь я запускаю сканирование, но хочу, чтобы мой сканер посещал страницы (так же, как shouldVisit()
) только в трех вышеуказанных доменах. Очевидно, есть внешние ссылки, но я хочу, чтобы мой сканер ограничивался только этими доменами. Субдомен, подпапки в порядке, но не за пределами этих доменов.
2 ответа
Если вы пытаетесь ограничить искатель только URL-адресами с теми же доменами, что и у исходных URL-адресов, то:
Извлеките доменные имена из начальных URL.
Напишите ваш класс сканера (который расширяет
WebCrawler
) сshouldVisit
метод отфильтровать любые URL, чьи домены не входят в набор.Сконфигурируйте контроллер, добавьте семена и запустите его обычным способом... согласно примеру здесь.
Размещено от имени ФП:
Получил решение здесь: http://code.google.com/p/crawler4j/issues/detail?id=94