SPARQL лучший подход для генерации плоских данных для поиска
У нас есть тройной запас информации, такой как наркотики, и я не уверен, как можно извлечь эту информацию, чтобы сделать ее доступной, чтобы ее можно было проиндексировать с помощью нашей поисковой системы Elasticsearch. Я планировал запустить запрос SPARQL для извлечения следующей информации:
- заглавие
- тело
- Href
Обратите внимание, что тройной магазин не содержит вышеуказанную структуру, он намного сложнее, чем этот.
Одно из требований состоит в том, чтобы иметь возможность форматировать Заголовки, используя разные тройки из тройного хранилища, так что, например, для лекарств понадобится что-то подобное:
Парацетамол | Введение | лекарственный
(Працетамол относится к названию препарата, введение - это подраздел, а препарат относится к типу)
Для тела я думал о том, чтобы извлечь все текстовые значения из всех троек, связанных с наркотиками.
А для href просто используйте URI ресурса (наркотик).
Затем я бы преобразовал эту информацию в JSON-LD, чтобы она могла быть проиндексирована Elasticsearch. В конце JSON-LD будет просто содержать заголовок, тело и href.
Поэтому мой вопрос заключается в том, правильно ли использовать SPARQL для того, что я хочу сделать, или я должен взглянуть на другой подход для извлечения нужных мне данных на основе вышеуказанных требований.