Конвейер OrdinalEncoder ValueError Найдены неизвестные категории

Question

Конвейер OrdinalEncoder ValueError Найдены неизвестные категории

Пожалуйста, успокойся на мне. Я переключаю карьеру на науку о данных и у меня нет опыта работы с CS или программирования - так что я могу делать что-то очень глупое. Я провел несколько часов безуспешно.

Цель: заставить конвейер работать с OrdinalEncoder.

Проблема: код не запускается с вызовом OrdinalEncoder. Это работает без OrdinalEncoder. Насколько я могу судить, я могу передать два аргумента: категории и dtype. Ни одна помощь.

Я передаю общедоступный набор данных о диабете в модель. Это проблема? IOW, передача функций высокой мощности в OrdinalEncoder вызывает проблему между данными поезда / теста после построения модели, т.е. тестовое разделение имеет значение, которое не имеет набор поездов?

from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OrdinalEncoder
from sklearn.ensemble import RandomForestClassifier

pipe = Pipeline([
    ('imputer', SimpleImputer()),
    ('ordinal_encoder', OrdinalEncoder()),
    ('classifier', RandomForestClassifier(criterion='gini', n_estimators=100))])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Construct model
model = pipe.fit(X_train, y_train)

# Show results
print("Hold-out AUC score: %.3f" %roc_auc_score(model.predict_proba(X_test),y_test))

Вот ошибка, которую я получаю:

ValueError: Found unknown categories [17.0] in column 0 during transform

Что я делаю неправильно?

Настроить:

The scikit-learn version is 0.20.2.
3.7.2 (v3.7.2:9a3ffc0492, Dec 24 2018, 02:44:43) 
[Clang 6.0 (clang-600.0.57)]
sys.version_info(major=3, minor=7, micro=2, releaselevel='final', serial=0)

22

python-3.x scikit-learn pipeline valueerror ordinal

Источник

user11103675 22 фев '19 в 22:27

10 ответов

Другие вопросы по тегам python-3.x scikit-learn pipeline valueerror ordinal

user7194421 12 ноя '20 в 06:49 2020-11-12 06:49 · Answer 1 · 2020-11-12 06:49

Ваша проблема в том, что модель обнаружила в тестовых данных значение, которого она не увидела в обучающих данных. Это хорошо. Вам просто нужно добавить аргумент handle_unknown в кодировщик.

Вам следует fit кодировщики и скейлеры к обучающим данным (но не к тестовым данным), а затем использовать их для transformкак обучающие, так и тестовые данные. Таким образом, вы должны предусмотреть возможность непредвиденных значений в тестовых данных.

user10674990 16 июн '22 в 16:45 2022-06-16 16:45 · Answer 2 · 2022-06-16 16:45

Это решит вашу проблему:

      OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)

Обратите внимание, что для того, чтобы это работало, вы должны использовать Scikit Learn версии 0.24 или выше.

11

Источник

user10674990 16 июн '22 в 16:45

user5602574 13 мар '21 в 11:33 2021-03-13 11:33 · Answer 3 · 2021-03-13 11:33

У меня была такая же проблема, я просто использовал OneHotEncoder(handle_unknown='ignore') вместо OneHotEncoder() и проблема была исправлена.

9

Источник

user5602574 13 мар '21 в 11:33

user9132057 19 дек '19 в 19:13 2019-12-19 19:13 · Answer 4 · 2019-12-19 19:13

Я опаздываю в игру, но я попал на эту страницу, поэтому решил, что все равно отвечу.

Вы сказали в своем комментарии: "Внаборе данных о диабете слишком много значений во многих функциях для данного разделения теста / поезда, чтобы оба отражали все значения"

Эта ошибка возникает с кодировщиками, когда набор для тестирования содержит данные, которые не были просмотрены во время обучения.

user5061557 22 фев '19 в 23:30 2019-02-22 23:30 · Answer 5 · 2019-02-22 23:30

Я не думаю, что OrdinalEncoder является правильным выбором в этой ситуации. Набор данных о диабете состоит из непрерывных, а не категориальных признаков. Как указано в документации для OrdinalEncoder:

Входные данные для этого преобразователя должны быть массивом целых чисел или строк, обозначающих значения, принимаемые категориальными (дискретными) функциями.

При этом без дополнительного вывода данных трассировки или вашей настройки я не могу однозначно сказать, почему вы получаете ошибку, которую сделали. Мне удалось успешно разделить и выполнить вышеуказанный код, используя данные, загруженные с load_diabetes функция. Я предполагаю, что в вашем случае вы каким-то образом упустили установку кодера с категорией "17.0", но опять же я бы не рекомендовал использовать категориальный кодер в этом случае.

user10737332 14 июл '19 в 03:21 2019-07-14 03:21 · Answer 6 · 2019-07-14 03:21

У меня такая же ошибка во время ColumnTransformer() я подозреваю, что это связано с тем, что кодировщик требует ввода в кодировщик 2D-массива.

Вы можете попробовать .apply(lambda x: [x]) или какую-то аналогичную функцию для ваших порядковых значений, чтобы повысить их обусловленность.

0

Источник

user10737332 14 июл '19 в 03:21

user11371948 06 авг '20 в 09:38 2020-08-06 09:38 · Answer 7 · 2020-08-06 09:38

Я бы подумал о том, чтобы сохранить порядковые значения в виде файла json во время обучения и прочитать ту же кодировку во время тестирования. Любое новое значение, поступающее в набор тестовых данных, которое не видно, должно обрабатываться перед тестированием или оценкой.

user13718422 10 июн '20 в 08:52 2020-06-10 08:52 · Answer 8 · 2020-06-10 08:52

У меня была та же проблема, кодировка X перед разделением на поезд и тестовый рабочий для меня. Кодирование перед разделением делает все категории регистрируемыми

0

Источник

user13718422 10 июн '20 в 08:52

user14500761 18 янв '22 в 14:48 2022-01-18 14:48 · Answer 9 · 2022-01-18 14:48

В «Scikit Learn версии 0.24» порядковый кодировщик имеет два новых параметра:

handle_unknown{‘error’, ‘use_encoded_value’}, default=’error’а также unknown_value:{int or np.nan}, default=None

Что касается обоих параметров, в документации scikit-learn говорится:

Когда для параметра handle_unknown установлено значение use_encoded_value, этот параметр является обязательным и устанавливает закодированное значение неизвестных категорий. Оно должно отличаться от значений, используемых для кодирования любой из подходящих категорий. Если установлено значение np.nan, параметр dtype должен быть типом с плавающей запятой.

Sarvar Anvarovich 27 фев '23 в 23:42 2023-02-27 23:42 · Answer 10 · 2023-02-27 23:42

Использоватьfit_transformвместоfitилиtransform. Это сработало для меня.

-1

Источник

Sarvar Anvarovich 27 фев '23 в 23:42