Разбор n-quad файлов RDF в Python

У меня есть следующий код, который читает строки из n-quad RDF файла 30kmoviedata.nq.gz в python:

import gzip, os, csv
gzfile = gzip.open('30kmoviedata.nq.gz', mode='rt')
print(gzfile)
for line in csv.reader(gzfile, delimiter=' ', quotechar='"'):
    print(line)

Первые несколько строк файла n-quad были напечатаны, пока программа не сообщила об ошибке:

['_:76635', '</film/performance/actor>', '</en/roddy_mcdowall>', '.']
['_:76636', '</film/performance/actor>', '</en/rainbeaux_smith>', '.']
['_:76637', '</film/performance/actor>', '</en/wendy_hiller>', '.']

---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-6-7cb4b58aef94> in <module>
      1 gzfile= gzip.open('30kmoviedata.nq.gz', mode='rt')
      2 print(gzfile)
----> 3 for line in csv.reader(gzfile, delimiter=' ', quotechar='"'):
      4     print(line)

c:\users\aquarium\appdata\local\programs\python\python37\lib\encodings\cp1252.py in decode(self, input, final)
     21 class IncrementalDecoder(codecs.IncrementalDecoder):
     22     def decode(self, input, final=False):
---> 23         return codecs.charmap_decode(input,self.errors,decoding_table)[0]
     24 
     25 class StreamWriter(Codec,codecs.StreamWriter):

UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 1505: character maps to <undefined>

Я использую python 3, и мне нужна помощь в решении этой проблемы. Спасибо.

0 ответов

Другие вопросы по тегам