Санируйте файлы YAGO перед загрузкой в хранилище Apache-jena TDB
Я хочу использовать тройки YAGO 3 rdf (yago3_entire_ttl.7z с http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/) в Apache-JENA триплет хранилище (3.1.0) с использованием tdbloader.
Средство защиты от мошенничества, предоставляемое apache-jena для проверки ввода, выдает 2 типа ошибок (несколько раз):
- Недопустимое значение escape-последовательности Unicode: \\ (0x5C)
- Недопустимый символ в IRI (кодовая точка 0x7C, '|')
Моя очевидная мысль состоит в том, чтобы заменить '\\' и '|' с принятыми последовательностями символов, которые проходят проверку бунта, но я хотел знать, есть ли другое решение?
1 ответ
Нашел решение здесь:
Теперь файлы.ttl должны быть предварительно обработаны, где не-юникодные символы заменены, чтобы Джена могла принять данные. В Linux запустите sed -i 's/|/-/g' ./* && sed -i 's/\\/-/g' ./* && sed -i 's/ - / - / g'./ * из каталога, в котором находятся ваши.ttl файлы. В Windows запустите Ubuntu Bash, перейдите в соответствующий каталог (например, / mnt / c / Users / Ferdinand / yago) и выполните ту же команду. Это займет несколько минут. Я имею в виду, действительно несколько...
https://ferdinand-muetsch.de/how-to-load-yago-into-apache-jena-fuseki.html