Найти веб-трассировку для веб-списка в Heritrix
Недавно я работал с веб-сканером Heritrix в моей компании, где я работаю, и через некоторое время я ищу и тестирую его, но не могу найти, как решить нашу проблему.
Мы хотим запускать heritrix автоматически в cron каждый день, чтобы сканировать список веб-страниц, и мы хотим проверить, не указывает ли какая-либо ссылка этих веб-сайтов на веб-сайты в нашем списке доменов. Сложная часть и не найти способ состоит в том, чтобы регистрировать всю трассировку по той ссылке, которая указывает на один из наших доменов.
В файле журнала задания хранятся все ссылки с некоторой информацией, но без трассировки. Примером является запуск сценария, когда выполняется задание grep brazzers, являющегося доменом в списке, поэтому, если он находит "brazzers" в журнале сканирования, он должен отобразиться в результате в другом журнале с полным следом от начала до конца:
2015-10-25T20: 18: 58.369Z 200 91 http://cdn1.ads.brazzers.com/robots.txt XLEP http://cdn1.ads.brazzers.com/ text / plain # 021 20151025201857643 + 726 sha1: CPA63O5POU3CVLCH3VDDIMBJCCWRVLPC - -
Возможно ли это сделать? Или другим способом? Чувствую себя очень глупо с этим, и я не очень хорош в программировании
заранее большое спасибо
Энрике.
1 ответ
На самом деле есть способ проанализировать окончательный журнал для задания сканирования после его завершения. Благодаря ответу разработчика Heritrix ( https://groups.yahoo.com/neo) у меня теперь есть правило для отслеживания веб-ссылки:
Четвертое поле строки в crawl.log - это загруженный URI. Шестое поле строки сообщает вам URI, который ссылается (непосредственно предшествует) на загруженный URI, указанный в четвертом поле. Поэтому, как правило, если вы найдете "ourdomain" в четвертом поле строки, то вы берете URI в шестом поле этой строки и ищете его в качестве четвертого поля в crawl.log, вы можете найти его реферер и следовать вернуться в этот шаблон, пока вы не нажмете URI семян. Вы должны знать, когда доберетесь до начального URI, потому что шестое поле будет иметь "-" вместо URI (путь обнаружения, указанный в пятом поле, также будет "-").
Таким образом, вы можете получить конкретный путь, который этот экземпляр сканирования прошел от начального до "ourdomain", хотя может существовать несколько других существующих путей, которые искатель не использовал в этом экземпляре.
Имея это, одним из способов сортировки строк в файле журнала для построения трассировки веб-ссылки является создание фрагмента, например, в PHP, в качестве примера, следуя приведенным правилам.