Использование RDFLib для извлечения данных не RDF как данных RDF с веб-страниц
Я недавно установил RDFLib для работы с данными RDF. Я хочу извлечь данные RDF из любой веб-страницы с данными не-RDF / RDF, например, Virtuoso Sponger
[как эта ссылка делает] ( http://linkeddata.uriburner.com/about/html/http/www.slideshare.net/kleinerperkins/internet-trends-v1)
и сохраните в формате N-Triples(nt) или N3/Turtle (как указано в параметрах нижнего колонтитула). Я получаю предупреждения и ошибки, если я выполняю
g.parse("http://www.slideshare.net/kleinerperkins/internet-trends-v1.html",format="n3")
Также есть встроенная функциональность для отображения онтологий с помощью RDFLib?
1 ответ
Я получаю предупреждения и ошибки, если я выполняю
g.parse("http://www.slideshare.net/kleinerperkins/internet-trends-v1.html",format="n3")
Это не удивительно, поскольку вы по сути просите его проанализировать HTML-страницу с помощью анализатора n3.
Вы могли бы бежать
g.parse("http://www.slideshare.net/kleinerperkins/internet-trends-v1.html", format="html")
но это, вероятно, не то, что вы хотите. RDFLib может работать с RDF, который встроен в HTML (например, RDFa или микроданные), и он также может извлекать некоторые "RDF общего назначения" из HTML, но результаты довольно сильно отличаются от того, что вы получаете от uriburner. Причина в том, что он использует пользовательский "Slideshare" Virtuoso Sponger, для которого специально предназначен для извлечения гораздо больше полезной информации из HTML слайд-шоу. Если вы хотите использовать те знания, которые были помещены в специальный sponger, вы можете запросить страницу "через" uriburner, проанализировав версию RDF от uriburner (ссылку можно найти внизу страницы):
g.parse(
'http://linkeddata.uriburner.com/sparql?default-graph-uri=http%3A%2F%2Fwww.slideshare.net%2Fkleinerperkins%2Finternet-trends-v1&query=DESCRIBE%20%3Chttp%3A%2F%2Flinkeddata.uriburner.com%2Fabout%2Fid%2Fentity%2Fhttp%2Fwww.slideshare.net%2Fkleinerperkins%2Finternet-trends-v1%3E&output=text%2Frdf%2Bn3',
format='n3'
)