Web Crawler для связанных данных в Java с библиотекой Jena

Я должен реализовать веб-Cralwer, который посещает связанные данные в Интернете. Я построил простой функционал для этого. У меня есть три запроса для этого:

  1. Какие семенные URI мне следует использовать. Веб-сайты, которые предоставляют данные в формате RDF и следуют принципам Тим Бернерс Ли связанных данных?
  2. Вообще, что вы подразумеваете под подходом, основанным на раундах, для веб-клиентов? Я прочитал об общих веб-сканерах и обнаружил, что следует придерживаться подхода, основанного на раунде.
  3. Я могу анализировать только те веб-страницы, которые могут возвращать данные RDF/XML. Этого достаточно для сканирования связанных данных.

1 ответ

  1. Есть несколько вариантов, например, использовать все URI, найденные в дампе Billion Triples Challenge, в качестве отправных точек, или все ресурсы, перечисленные в группе lodcloud на концентраторе данных (можно получить через CKAN API).
  2. Извините, я не знаю.
  3. Нет, RDF/XML недостаточно, поскольку многие наборы данных, публикуемые в качестве связанных данных, используют другие форматы. Вы также хотите Черепаху и RDFa. Вы можете использовать Apache Any23, который понимает все вышеперечисленное. LDSpider - это сканер, который использует Any23.
Другие вопросы по тегам