Кроссплатформенный метод для загрузки больших RDF в тройные магазины

В настоящее время мы используем Virtuoso для хранения троек RDF. Нам нужен автоматизированный способ загрузки RDF-файлов в базу данных. Данные могут быть очень большими, поэтому в настоящее время мы используем загрузчик виртуальных данных Virtuoso для загрузки данных; однако, возможно, что в будущем мы переключимся на какой-нибудь другой тройной магазин, поэтому я не хочу зависеть от решения для конкретной платформы, такого как это. Существует ли более общий кроссплатформенный способ загрузки больших файлов RDF в тройные хранилища?

Большая часть нашего программирования выполняется на Python, поэтому было бы предпочтительнее решение с привязками Python.

Я довольно плохо знаком с технологиями семантического веба, поэтому, пожалуйста, дайте мне знать, если мой вопрос недостаточно подробен, и я постараюсь предоставить больше информации. Спасибо!

1 ответ

Решение

Существует любое количество методов вставки Virtuoso RDF, подробно описанных по адресу http://virtuoso.openlinksw.com/dataspace/dav/wiki/Main/VirtRDFInsert, большинство из которых относятся к Virtuoso частично из-за особенностей, уникальных для Virtuoso, таких как WebDAV и ODS. или функции реализованы по-другому в других магазинах или нет вообще.

Вероятно, наиболее общий метод в вашем случае - это чтение наборов данных в Python и использование команд обновления SPARQL 1.1 ( http://www.w3.org/TR/sparql11-update/) для вставки / загрузки данных в Virtuoso или любой другой. другие тройные магазины, поддерживающие обновление SPARQL 1.1. Основным недостатком этого подхода является то, что процесс вставки должен управляться в Python, чтобы гарантировать последовательную загрузку данных, обработку взаимоблокировок, откатов и т. Д., Что сделало бы этот метод намного медленнее и, вероятно, недопустимо таким же образом для очень больших наборов данных. Вот почему большинство поставщиков предоставляют свои собственные методы "массовой загрузки", в которых согласованность данных, взаимные блокировки и т. Д. Обрабатываются внутри компании гораздо быстрее.

Другие вопросы по тегам