Удалить недействительные N-Quads из файла в Йене

У меня есть файл, содержащий N-Quads (с использованием словаря schema.org), и я хочу загрузить его в RDF-хранилище TDB, используя инструменты командной строки Apache Jena. Команда, которую я использую:

tdbloader --loc <rdf_store_location> <file_to_load>

Но во время загрузки я получил ошибку:

[строка: 769293, столбец: 154] Недопустимое значение escape-последовательности Unicode: \" (0x22)

Я также запустил инструмент проверки из инструментов командной строки Jena:

riot --validate <file_to_load>

и действительно, есть по крайней мере 30 ошибок / предупреждений, подобных этому:

Плохой ИРИ

Путь содержит сегмент /../ не в начале относительной ссылки, или он содержит /./ Они должны быть удалены

Есть ли способ игнорировать недопустимые N-Quad или удалять их с помощью инструментов командной строки (Jena или, если вы знакомы с другими)?

В противном случае единственным вариантом будет сделать скрипт для удаления недопустимых символов. Но помимо файла огромного размера (60 ГБ), я думаю, это очень подвержено ошибкам.

0 ответов

Другие вопросы по тегам