Crawler4j загрузка статей

Question

Crawler4j загрузка статей

Я пытаюсь загрузить статьи с новостных порталов, используя Crawler4j. Я хотел бы хранить их в папках под категориями "спорт", "наука", "здоровье" или любой другой, созданный этим порталом. Разбор URL недостаточен, так как некоторые порталы не используют категории в URL. Единственная идея, которую я имею, состоит в том, чтобы создать дерево и запомнить найденные ссылки на текущей странице. Есть ли более простой способ сделать это?

0

web-crawler categorization crawler4j

Источник

user4814722 21 апр '15 в 12:07

1 ответ

Решение

Другие вопросы по тегам web-crawler categorization crawler4j

user1216112 24 авг '15 в 14:05 2015-08-24 14:05 · Accepted Answer · 2015-08-24 14:05

Вы можете проанализировать реальные страницы и с помощью тегов CSS, определить заголовок или крошку

Я бы предложил использовать для этого JSOUP.

Вам нужно знать новостной сайт и какой тег css является тегом css.

0

Источник

user1216112 24 авг '15 в 14:05