Ошибка кодировки Unicode с выводом Python rdflib

Я использую rdflib проанализировать микроданные CommonCrawl. Это большой файл формата N-Quads. Все в порядке, за исключением самого последнего этапа сохранения в файл CSV или печати на терминал, так как это приводит к ошибкам кодирования.

Мой текущий код:

import csv
import rdflib
from rdflib import ConjunctiveGraph, URIRef, Namespace, RDF, BNode

g = rdflib.ConjunctiveGraph()
g.parse("nquads.nquads", format="nquads")

with open('list.csv', 'wb') as csvfile:
    csvwriter = csv.writer(csvfile, delimiter=',',
                            quotechar='"', quoting=csv.QUOTE_MINIMAL)
    csvwriter.writerow(['URL'])

    for ctx in q.quads:
        s = ctx[3]
        s = s[s.index("<") + 1:s.rindex(">")] # Gets URL between < and >
        csvwriter.writerow([ s ])

Это проходит через многие тысячи строк, но разрывается в определенной точке.

Ошибка:

UnicodeEncodeError: 'ascii' codec can't encode characters in position 62-63: ordinal not in range(128)

Теперь я попробовал несколько вещей:

 s = ctx[3].toPython()
 s = ctx[3].value()
 s = str(ctx[3])
 s = ctx[3].encode('utf-8')
 s = ctx[3].encode('utf-8', 'ignore')

и т. д.

ctx[3] данные в следующем формате:

<http://www.serenabakessimplyfromscratch.com/2014/07/blueberry-cinnamon-swirl-crumb.html> a rdfg:Graph;rdflib:storage [a rdflib:Store;rdfs:label 'IOMemory'].
<http://www.seriouseats.com/recipes/2009/01/meat-lite-warm-winter-salad.html?ref=excerpt_readmore> a rdfg:Graph;rdflib:storage [a rdflib:Store;rdfs:label 'IOMemory'].
<http://www.grouprecipes.com/103118/broccoli-rice-casserole.html> a rdfg:Graph;rdflib:storage [a rdflib:Store;rdfs:label 'IOMemory'].
<http://www.grouprecipes.com/67612/asian-chicken-noodle-soup.html> a rdfg:Graph;rdflib:storage [a rdflib:Store;rdfs:label 'IOMemory'].
<http://www.grouprecipes.com/113715/bouillabaisse-style-fish-stew.html> a rdfg:Graph;rdflib:storage [a rdflib:Store;rdfs:label 'IOMemory'].
<http://www.drinksmixer.com/drink15xy188.html> a rdfg:Graph;rdflib:storage [a rdflib:Store;rdfs:label 'IOMemory'].

Приведенный выше код работает во многих случаях, правильно извлекая URL-адрес и записывая его в CSV, но он неизбежно нарушает некоторые данные.

Как правильно получить текстовое содержимое из RDFlib? Как я могу узнать, в каком формате кодирования это находится? Есть ли другой способ вывести текстовое содержимое?

0 ответов

Другие вопросы по тегам