Python - конвейер sklearn SVC f_regression - получить имена столбцов

Я пытаюсь имена столбцов из этого фрагмента кода:

anova_filter = SelectKBest(f_regression, k=10)
clf = svm.SVC(kernel='linear')
anova_svm = make_pipeline(anova_filter, clf)
f_reg_features = anova_svm.fit(df_train, df_train_y)

Я попробовал некоторые другие предложения, такие как этот, но я не смог заставить его работать:

Как получить имена объектов, выбранные путем исключения объектов в конвейере sklearn?

Заранее спасибо.

1 ответ

Решение

С библиотекой eli5 (отказ от ответственности: я один из авторов) вы можете сделать это следующим образом:

# the original example:
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn import svm
from sklearn.datasets import make_classification
from sklearn.pipeline import make_pipeline
import pandas as pd

X, y = make_classification(n_features=5, n_informative=5, n_redundant=0)
df_train = pd.DataFrame(X, columns=['A', 'B', 'C', 'D', 'E'])
df_train_y = pd.DataFrame(y)

anova_filter = SelectKBest(f_regression, k=3)
clf = svm.SVC(kernel='linear')
anova_svm = make_pipeline(anova_filter, clf)
f_reg_features = anova_svm.fit(df_train, df_train_y)

а потом:

import eli5
feat_names = eli5.transform_feature_names(anova_filter, list(df.columns))

Он работает аналогично предложению Вивека Кумара; Преимущество - унифицированный API - нет необходимости запоминать такие фрагменты для каждого преобразователя.

Если вы замените SVC(kernel='linear') на sklearn.linear_model.LinearSVM (что также должно быть намного быстрее), вы можете сделать это:

eli5.show_weights(anova_svm, feature_names=list(df.columns))

и получить таблицу, как это:

введите описание изображения здесь

Другие вопросы по тегам