Как исключить все, кроме ссылок / исходящих ссылок, из сканирования heritrix?

Я работаю с Heritrix, и я немного застрял в управлении выходом.

Я изучаю PageRank и мне нужно, чтобы Heritrix сгенерировал файл, к которому можно применить алгоритм ранжирования. Файл, который мне нужен, будет иметь только ссылки и ссылки для каждой посещенной страницы.

Я хотел бы избежать (насколько я могу) постобработки. Можно ли настроить выход Heritrix, указав, что должно быть включено, а что нет? Я уже попытался изменить cxml-файл, но в выводе все еще много бесполезной информации (например, страницы содержимого).

1 ответ

Невозможно напрямую делать то, что вы описываете, без написания кода. Если вы готовы писать код, вы можете написать довольно простой процессор или ScriptedProcessor, который выдает CrawlURI.getOutLinks() в любом формате, который вы предпочитаете.

Но я бы порекомендовал постобработку. Я не уверен, почему вы хотите избежать этого. Вы можете использовать инструмент "warcfilter" по https://github.com/internetarchive/warctools. Запустите "метаданные warcfilter --type", чтобы отфильтровать только записи метаданных, которые содержат списки исходящих ссылок. Вы могли бы сократить это дальше с помощью grep.

Ссылки - это гораздо больший вопрос. Вы должны будете искать через ссылки со всех ваших варков, чтобы получить ссылки на любой заданный URL.

Другие вопросы по тегам