Отказ от категорических функций от быстрого кодирования в Scikit-Learn?

Question

Отказ от категорических функций от быстрого кодирования в Scikit-Learn?

Я пытаюсь построить модель прогнозирования лассо-регрессии. Я закодировал все свои категориальные целочисленные функции, используя схему one-of-K, которая называется One-of-K, с использованием OneHotEncoder в scikit-learn. Основываясь на результате, только 51 параметр фактически влияет на модель прогнозирования. Я хочу исследовать эти параметры, но они закодированы, как описано выше. Знаете ли вы, как я могу извлечь, какая целочисленная категориальная особенность соответствует какому горячему кодированному массиву? Спасибо!

0

python machine-learning scikit-learn encoding one-hot

Источник

user5614469 28 ноя '15 в 06:19

3 ответа

Другие вопросы по тегам python machine-learning scikit-learn encoding one-hot

user4899308 29 дек '15 в 23:02 2015-12-29 23:02 · Answer 1 · 2015-12-29 23:02

Используя атрибуты active_features_, feature_indices_ и n_values_ sklearn.preprocessing.OneHotEncoder, вектор категориальных объектов, упорядоченных по их "позиции" в массиве с одним горячим элементом, может быть создан следующим образом:

import numpy as np
from sklearn import preprocessing

enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
enc.active_features_ - np.repeat(enc.feature_indices_[:-1], enc.n_values_)
# array([0, 1, 0, 1, 2, 0, 1, 2, 3], dtype=int64)

Кроме того, исходные данные могут быть возвращены из горячего массива следующим образом:

x = enc.transform([[0, 1, 1], [1, 2, 3]]).toarray()
# array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.],
#       [ 0.,  1.,  0.,  0.,  1.,  0.,  0.,  0.,  1.]])

cond = x > 0
[enc.active_features_[c.ravel()] - enc.feature_indices_[:-1] for c in cond]
# [array([0, 1, 1], dtype=int64), array([1, 2, 3], dtype=int64)]

user10475203 10 фев '21 в 23:12 2021-02-10 23:12 · Answer 2 · 2021-02-10 23:12

Это работает:

      import pickle


with open('model.pickle', 'rb') as handle:
    one_hot_categories = pickle.load(handle)      


print(one_hot_categories.categories_)

0

Источник

user10475203 10 фев '21 в 23:12

user6635625 25 июл '16 в 14:51 2016-07-25 14:51 · Answer 3 · 2016-07-25 14:51

Я разработал конструкцию для улучшения Pipele и FeatureUnion в sklearn, благодаря которой мы также можем откатить категориальные функции после горячего кодирования или других этапов предварительной обработки. Кроме того, мы можем "нарисовать" преобразование с помощью GraphX: например,

например

Вы можете найти их на моей странице Github.