Web Crawler для связанных данных в Java с библиотекой Jena
Я должен реализовать веб-Cralwer, который посещает связанные данные в Интернете. Я построил простой функционал для этого. У меня есть три запроса для этого:
- Какие семенные URI мне следует использовать. Веб-сайты, которые предоставляют данные в формате RDF и следуют принципам Тим Бернерс Ли связанных данных?
- Вообще, что вы подразумеваете под подходом, основанным на раундах, для веб-клиентов? Я прочитал об общих веб-сканерах и обнаружил, что следует придерживаться подхода, основанного на раунде.
- Я могу анализировать только те веб-страницы, которые могут возвращать данные RDF/XML. Этого достаточно для сканирования связанных данных.
1 ответ
- Есть несколько вариантов, например, использовать все URI, найденные в дампе Billion Triples Challenge, в качестве отправных точек, или все ресурсы, перечисленные в группе lodcloud на концентраторе данных (можно получить через CKAN API).
- Извините, я не знаю.
- Нет, RDF/XML недостаточно, поскольку многие наборы данных, публикуемые в качестве связанных данных, используют другие форматы. Вы также хотите Черепаху и RDFa. Вы можете использовать Apache Any23, который понимает все вышеперечисленное. LDSpider - это сканер, который использует Any23.