Сканирование и индексирование определенных ссылок на определенной странице

Я новичок, поэтому я только начинаю свой путь. Я хочу сканировать определенную страницу и под этой страницей, я хочу сканировать определенные ссылки.

например

Я хочу сканировать только http://nutch.apache.org/downloads.html

Под этой страницей я просто хочу сканировать, скажем, только *.txt ссылки. Теперь они могут быть активными ссылками, такими как , или они могут быть встроены в некоторый div, как мы обычно видели на различных форумах, где есть ссылка на файл. сайты загрузки / скачивания вставляются / вставляются в некоторые элементы div и т. д. http://example.com/movie_abcd/firstpart.avi

Здесь я просто хочу сканировать ссылки, оканчивающиеся на.avi. Я просто путаюсь с regex-urlfilter, потому что до сих пор я его использую, и я не знаком с другими фильтрами URL, такими как фильтры префикса и суффикса URL. Они также играют важную роль в решении моей проблемы, и если они сделают то, что будет их целью. В течение последних нескольких дней я искал во всем Интернете надлежащий учебник для Nutch, но не могу найти ничего подобного. Как этого добиться. Также кто-нибудь может порекомендовать Я хорошая книга для NUTCH ANS Solr, в которой есть подробные практические рабочие примеры и описание о них и их методологии.

Я с любопытством буду ждать ответов.

Спасибо

1 ответ

Решение

Проверьте мои сообщения, если у вас есть какие-либо вопросы, просто прокомментируйте внизу, и я постараюсь помочь вам как можно больше.

Solr Tutorial

Nutch Учебник

Другие вопросы по тегам