UnicodeDecodeError: кодек "utf-8" не может декодировать байт 0x85 в позиции 10: недопустимый начальный байт

Это мой код

f = open('/home/hp/preena_qa/data/glove/glove.840B.300d.txt','r',encoding = "utf-8") 
for line in f:
    values = line.split()
    word = ''.join(values[:-300])
    coefs = np.asarray(values[-300:], dtype='float32')
    embeddings_index[word] = coefs
f.close() 

Некоторая часть моего входного файла приведена ниже, не могу загрузить полный файл

, -0.082752 0.67204 -0.14987 -0.064983 0.056491 0.40228 0.0027747 -0.3311 -0.30691 2.0817 0.031819 0.013643 0.30265 0.0071297 -0.5819 -0.2774 -0.062254 1.1451 -0.24232 0.1235 -0.12243 0.33152 -0.006162 -0.30541 -0.13057 -0.054601 0.037083 -0.070552 0.5893 -0.30385 0.2898 -0.14653 -0.27052 0.37161 0.32031

Я получаю ошибку:

UnicodeDecodeError: кодек "utf-8" не может декодировать байт 0x85 в позиции 10: недопустимый начальный байт

я пытался encoding='latin1', encoding="ISO-8859-1”, errors='ignore', errors='replace' и т.д., но получаю ту же ошибку.

0 ответов

Другие вопросы по тегам