Чтение из файла дуги (набор данных commoncrawl) с помощью ARCReader
Ну, этот вопрос может показаться глупым, но я проводил исследования, как часы, чтобы найти решение, но я не мог, если кто-то знает, это было бы здорово!!!
Я успешно прочитал файл дуги (из набора данных commoncrawl). С arcHeader.getUrl();
Я получаю все URL. Однако я не понимаю, есть ли "исходящие" ссылки с этого конкретного URL, если они есть, как их получить?
[PS] Под "исходящим" я имею в виду, на всей странице, какой URL-адрес он содержит, например, объявление, контент и т. Д. Содержит ли этот файл дуги commoncrawl, если да, то как его получить?
Заранее спасибо!
РЕДАКТИРОВАТЬ: Я решил это, прочитал HTML-контент и получил все! разве это не сложно!