Удалить недействительные N-Quads из файла в Йене
У меня есть файл, содержащий N-Quads (с использованием словаря schema.org), и я хочу загрузить его в RDF-хранилище TDB, используя инструменты командной строки Apache Jena. Команда, которую я использую:
tdbloader --loc <rdf_store_location> <file_to_load>
Но во время загрузки я получил ошибку:
[строка: 769293, столбец: 154] Недопустимое значение escape-последовательности Unicode: \" (0x22)
Я также запустил инструмент проверки из инструментов командной строки Jena:
riot --validate <file_to_load>
и действительно, есть по крайней мере 30 ошибок / предупреждений, подобных этому:
Плохой ИРИ
Путь содержит сегмент /../ не в начале относительной ссылки, или он содержит /./ Они должны быть удалены
Есть ли способ игнорировать недопустимые N-Quad или удалять их с помощью инструментов командной строки (Jena или, если вы знакомы с другими)?
В противном случае единственным вариантом будет сделать скрипт для удаления недопустимых символов. Но помимо файла огромного размера (60 ГБ), я думаю, это очень подвержено ошибкам.