Разбор n-quad файлов RDF в Python
У меня есть следующий код, который читает строки из n-quad RDF файла 30kmoviedata.nq.gz в python:
import gzip, os, csv
gzfile = gzip.open('30kmoviedata.nq.gz', mode='rt')
print(gzfile)
for line in csv.reader(gzfile, delimiter=' ', quotechar='"'):
print(line)
Первые несколько строк файла n-quad были напечатаны, пока программа не сообщила об ошибке:
['_:76635', '</film/performance/actor>', '</en/roddy_mcdowall>', '.']
['_:76636', '</film/performance/actor>', '</en/rainbeaux_smith>', '.']
['_:76637', '</film/performance/actor>', '</en/wendy_hiller>', '.']
---------------------------------------------------------------------------
UnicodeDecodeError Traceback (most recent call last)
<ipython-input-6-7cb4b58aef94> in <module>
1 gzfile= gzip.open('30kmoviedata.nq.gz', mode='rt')
2 print(gzfile)
----> 3 for line in csv.reader(gzfile, delimiter=' ', quotechar='"'):
4 print(line)
c:\users\aquarium\appdata\local\programs\python\python37\lib\encodings\cp1252.py in decode(self, input, final)
21 class IncrementalDecoder(codecs.IncrementalDecoder):
22 def decode(self, input, final=False):
---> 23 return codecs.charmap_decode(input,self.errors,decoding_table)[0]
24
25 class StreamWriter(Codec,codecs.StreamWriter):
UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 1505: character maps to <undefined>
Я использую python 3, и мне нужна помощь в решении этой проблемы. Спасибо.