Чтение из файла дуги (набор данных commoncrawl) с помощью ARCReader

Question

Чтение из файла дуги (набор данных commoncrawl) с помощью ARCReader

Ну, этот вопрос может показаться глупым, но я проводил исследования, как часы, чтобы найти решение, но я не мог, если кто-то знает, это было бы здорово!!!

Я успешно прочитал файл дуги (из набора данных commoncrawl). С arcHeader.getUrl(); Я получаю все URL. Однако я не понимаю, есть ли "исходящие" ссылки с этого конкретного URL, если они есть, как их получить?

[PS] Под "исходящим" я имею в виду, на всей странице, какой URL-адрес он содержит, например, объявление, контент и т. Д. Содержит ли этот файл дуги commoncrawl, если да, то как его получить?

Заранее спасибо!

РЕДАКТИРОВАТЬ: Я решил это, прочитал HTML-контент и получил все! разве это не сложно!

1

java web-crawler heritrix

Источник

user1337514 15 ноя '12 в 21:52

0 ответов

Другие вопросы по тегам java web-crawler heritrix