Crawler4j загрузка статей

Я пытаюсь загрузить статьи с новостных порталов, используя Crawler4j. Я хотел бы хранить их в папках под категориями "спорт", "наука", "здоровье" или любой другой, созданный этим порталом. Разбор URL недостаточен, так как некоторые порталы не используют категории в URL. Единственная идея, которую я имею, состоит в том, чтобы создать дерево и запомнить найденные ссылки на текущей странице. Есть ли более простой способ сделать это?

1 ответ

Решение

Вы можете проанализировать реальные страницы и с помощью тегов CSS, определить заголовок или крошку

Я бы предложил использовать для этого JSOUP.

Вам нужно знать новостной сайт и какой тег css является тегом css.

Другие вопросы по тегам