UnicodeDecodeError: кодек "utf8" не может декодировать байт 0xb5 в позиции 894: недопустимый начальный байт

Question

UnicodeDecodeError: кодек "utf8" не может декодировать байт 0xb5 в позиции 894: недопустимый начальный байт

Я использую scikit-learn для проекта. При выполнении извлечения функций (учебное пособие working_with_text_data) я получаю UnicodeDecodeError: кодек "utf8" не может декодировать байт.

Использование Python 2.7.8 и сборка scikit-learn используя make.

from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(dataset.data)
print(X_train_counts.shape)

Пожалуйста, помогите, как решить?

2

python scikit-learn utf-8

Источник

user1779183 08 май '15 в 06:46

0 ответов

Другие вопросы по тегам python scikit-learn utf-8

user4156120 11 апр '19 в 09:05 2019-04-11 09:05 · Answer 1 · 2019-04-11 09:05

При использовании функции load_files кодировка должна быть latin1

twenty_train = load_files('path/to/folder',encoding='latin1')

в sklearn/ наборы данных / fifty_newscroups.py

function _download_20newsgroups
...
load_files(train_path, encoding='latin1')

0

Источник

user4156120 11 апр '19 в 09:05