Web Crawler для связанных данных в Java с библиотекой Jena

Question

Web Crawler для связанных данных в Java с библиотекой Jena

Я должен реализовать веб-Cralwer, который посещает связанные данные в Интернете. Я построил простой функционал для этого. У меня есть три запроса для этого:

Какие семенные URI мне следует использовать. Веб-сайты, которые предоставляют данные в формате RDF и следуют принципам Тим Бернерс Ли связанных данных?
Вообще, что вы подразумеваете под подходом, основанным на раундах, для веб-клиентов? Я прочитал об общих веб-сканерах и обнаружил, что следует придерживаться подхода, основанного на раунде.
Я могу анализировать только те веб-страницы, которые могут возвращать данные RDF/XML. Этого достаточно для сканирования связанных данных.

1

web-crawler rdf semantic-web linked-data

Источник

user810031 24 сен '12 в 18:42

1 ответ

Другие вопросы по тегам web-crawler rdf semantic-web linked-data

user346336 24 сен '12 в 22:25 2012-09-24 22:25 · Answer 1 · 2012-09-24 22:25

Есть несколько вариантов, например, использовать все URI, найденные в дампе Billion Triples Challenge, в качестве отправных точек, или все ресурсы, перечисленные в группе lodcloud на концентраторе данных (можно получить через CKAN API).
Извините, я не знаю.
Нет, RDF/XML недостаточно, поскольку многие наборы данных, публикуемые в качестве связанных данных, используют другие форматы. Вы также хотите Черепаху и RDFa. Вы можете использовать Apache Any23, который понимает все вышеперечисленное. LDSpider - это сканер, который использует Any23.