Чем AUC может отличаться от GridSearchCV AUC?
Я строю модель MLPClassifier в Sci-Kit Learn. Я использовал gridSearchCV с roc_auc для оценки модели. Средний балл за поезд и тест составляет около 0,76, неплохо. Выход из cv_results_
является:
Train set AUC: 0.553465272412
Grid best score (AUC): 0.757236688092
Grid best parameter (max. AUC): {'hidden_layer_sizes': 10}
{ 'mean_fit_time': array([63.54, 136.37, 136.32, 119.23, 121.38, 124.03]),
'mean_score_time': array([ 0.04, 0.04, 0.04, 0.05, 0.05, 0.06]),
'mean_test_score': array([ 0.76, 0.74, 0.75, 0.76, 0.76, 0.76]),
'mean_train_score': array([ 0.76, 0.76, 0.76, 0.77, 0.77, 0.77]),
'param_hidden_layer_sizes': masked_array(data = [5 (5, 5) (5, 10) 10 (10, 5) (10, 10)],
mask = [False False False False False False],
fill_value = ?)
,
'params': [ {'hidden_layer_sizes': 5},
{'hidden_layer_sizes': (5, 5)},
{'hidden_layer_sizes': (5, 10)},
{'hidden_layer_sizes': 10},
{'hidden_layer_sizes': (10, 5)},
{'hidden_layer_sizes': (10, 10)}],
'rank_test_score': array([ 2, 6, 5, 1, 4, 3]),
'split0_test_score': array([ 0.76, 0.75, 0.75, 0.76, 0.76, 0.76]),
'split0_train_score': array([ 0.76, 0.75, 0.75, 0.76, 0.76, 0.76]),
'split1_test_score': array([ 0.77, 0.76, 0.76, 0.77, 0.76, 0.76]),
'split1_train_score': array([ 0.76, 0.75, 0.75, 0.76, 0.76, 0.76]),
'split2_test_score': array([ 0.74, 0.72, 0.73, 0.74, 0.74, 0.75]),
'split2_train_score': array([ 0.77, 0.77, 0.77, 0.77, 0.77, 0.77]),
'std_fit_time': array([47.59, 1.29, 1.86, 3.43, 2.49, 9.22]),
'std_score_time': array([ 0.01, 0.01, 0.01, 0.00, 0.00, 0.01]),
'std_test_score': array([ 0.01, 0.01, 0.01, 0.01, 0.01, 0.01]),
'std_train_score': array([ 0.01, 0.01, 0.01, 0.01, 0.01, 0.00])}
Как вы можете видеть, я использую KFold 3. Интересно, что roc_auc_score набора поездов, вычисленного вручную, сообщается как 0,55, в то время как средняя оценка поезда составляет ~0,76. Код для генерации этого вывода:
def model_mlp (X_train, y_train, verbose=True, random_state = 42):
grid_values = {'hidden_layer_sizes': [(5), (5,5), (5, 10),
(10), (10, 5), (10, 10)]}
# MLP requires scaling of all predictors
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
mlp = MLPClassifier(solver='adam', learning_rate_init=1e-4,
max_iter=200,
verbose=False,
random_state=random_state)
# perform the grid search
grid_auc = GridSearchCV(mlp,
param_grid=grid_values,
scoring='roc_auc',
verbose=2, n_jobs=-1)
grid_auc.fit(X_train, y_train)
y_hat = grid_auc.predict(X_train)
# print out the results
if verbose:
print('Train set AUC: ', roc_auc_score(y_train, y_hat))
print('Grid best score (AUC): ', grid_auc.best_score_)
print('Grid best parameter (max. AUC): ', grid_auc.best_params_)
print('')
pp = pprint.PrettyPrinter(indent=4)
pp.pprint (grid_auc.cv_results_)
print ('MLPClassifier fitted, {:.2f} seconds used'.format (time.time () - t))
return grid_auc.best_estimator_
Из-за этой разницы я решил "подражать" GridSearchCV
рутина и получила следующие результаты:
Shape X_train: (107119, 15)
Shape y_train: (107119,)
Shape X_val: (52761, 15)
Shape y_val: (52761,)
layers roc-auc
Seq l1 l2 train test iters runtime
1 5 0 0.5522 0.5488 85 20.54
2 5 5 0.5542 0.5513 80 27.10
3 5 10 0.5544 0.5521 83 28.56
4 10 0 0.5532 0.5516 61 15.24
5 10 5 0.5540 0.5518 54 19.86
6 10 10 0.5507 0.5474 56 21.09
Все оценки около 0,55, что соответствует ручному вычислению в приведенном выше коде. Что меня удивило, так это отсутствие изменений в результатах. Кажется, что я делаю какую-то ошибку, но я не могу ее найти, см. Код:
def simple_mlp (X, y, verbose=True, random_state = 42):
def do_mlp (X_t, X_v, y_t, y_v, n, l1, l2=None):
if l2 is None:
layers = (l1)
l2 = 0
else:
layers = (l1, l2)
t = time.time ()
mlp = MLPClassifier(solver='adam', learning_rate_init=1e-4,
hidden_layer_sizes=layers,
max_iter=200,
verbose=False,
random_state=random_state)
mlp.fit(X_t, y_t)
y_hat_train = mlp.predict(X_t)
y_hat_val = mlp.predict(X_v)
if verbose:
av = 'samples'
acc_trn = roc_auc_score(y_train, y_hat_train, average=av)
acc_tst = roc_auc_score(y_val, y_hat_val, average=av)
print ("{:5d}{:4d}{:4d}{:7.4f}{:7.4f}{:9d}{:8.2f}"
.format(n, l1, l2, acc_trn, acc_tst, mlp.n_iter_, time.time() - t))
return mlp, n + 1
X_train, X_val, y_train, y_val = train_test_split (X, y, test_size=0.33, random_state=random_state)
if verbose:
print('Shape X_train:', X_train.shape)
print('Shape y_train:', y_train.shape)
print('Shape X_val:', X_val.shape)
print('Shape y_val:', y_val.shape)
# MLP requires scaling of all predictors
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)
n = 1
layers1 = [5, 10]
layers2 = [5, 10]
if verbose:
print (" layers roc-auc")
print (" Seq l1 l2 train validation iters runtime")
for l1 in layers1:
mlp, n = do_mlp (X_train, X_val, y_train, y_val, n, l1)
for l2 in layers2:
mlp, n = do_mlp (X_train, X_val, y_train, y_val, n, l1, l2)
return mlp
Я использую одни и те же данные в обоих случаях (159880 наблюдений и 15 предикторов). я использую cv=3
(по умолчанию) для GridSearchCV
и использовать ту же пропорцию для проверки, установленной в моем коде ручной работы. При поиске возможного ответа я нашел этот пост на SO, который описывает ту же проблему. Ответа не было. Может, кто-то понимает, что именно происходит?
Спасибо за ваше время.
редактировать
Я проверил код GridSearchCV и KFold, как предложил @Mohammed Kashif, и действительно нашел явное замечание, что KFold не перемешивает данные. Поэтому я добавил следующий код в model_mlp до масштабирования:
np.random.seed (random_state)
index = np.random.permutation (len(X_train))
X_train = X_train.iloc[index]
и в simple_mlp в качестве замены train_test_split:
np.random.seed (random_state)
index = np.random.permutation (len(X))
X = X.iloc[index]
y = y.iloc[index]
train_size = int (2 * len(X) / 3.0) # sample of 2 third
X_train = X[:train_size]
X_val = X[train_size:]
y_train = y[:train_size]
y_val = y[train_size:]
Что привело к следующему выводу:
Train set AUC: 0.5
Grid best score (AUC): 0.501410198106
Grid best parameter (max. AUC): {'hidden_layer_sizes': (5, 10)}
{ 'mean_fit_time': array([28.62, 46.00, 54.44, 46.74, 55.25, 53.33]),
'mean_score_time': array([ 0.04, 0.05, 0.05, 0.05, 0.05, 0.06]),
'mean_test_score': array([ 0.50, 0.50, 0.50, 0.50, 0.50, 0.50]),
'mean_train_score': array([ 0.50, 0.51, 0.51, 0.51, 0.50, 0.51]),
'param_hidden_layer_sizes': masked_array(data = [5 (5, 5) (5, 10) 10 (10, 5) (10, 10)],
mask = [False False False False False False],
fill_value = ?)
,
'params': [ {'hidden_layer_sizes': 5},
{'hidden_layer_sizes': (5, 5)},
{'hidden_layer_sizes': (5, 10)},
{'hidden_layer_sizes': 10},
{'hidden_layer_sizes': (10, 5)},
{'hidden_layer_sizes': (10, 10)}],
'rank_test_score': array([ 6, 2, 1, 4, 5, 3]),
'split0_test_score': array([ 0.50, 0.50, 0.51, 0.50, 0.50, 0.50]),
'split0_train_score': array([ 0.50, 0.51, 0.50, 0.51, 0.50, 0.51]),
'split1_test_score': array([ 0.50, 0.50, 0.50, 0.50, 0.49, 0.50]),
'split1_train_score': array([ 0.50, 0.50, 0.51, 0.50, 0.51, 0.51]),
'split2_test_score': array([ 0.49, 0.50, 0.49, 0.50, 0.50, 0.50]),
'split2_train_score': array([ 0.51, 0.51, 0.51, 0.51, 0.50, 0.51]),
'std_fit_time': array([19.74, 19.33, 0.55, 0.64, 2.36, 0.65]),
'std_score_time': array([ 0.01, 0.01, 0.00, 0.01, 0.00, 0.01]),
'std_test_score': array([ 0.01, 0.00, 0.01, 0.00, 0.00, 0.00]),
'std_train_score': array([ 0.00, 0.00, 0.00, 0.00, 0.00, 0.00])}
который, кажется, подтверждает замечания Мухаммеда. Должен сказать, что сначала я был настроен довольно скептически, так как не мог представить такое сильное влияние рандомизации на такой большой набор данных, который на самом деле не выглядит упорядоченным.
У меня есть некоторые сомнения, однако. В исходной настройке GridSearchCV неизменно оказывался слишком высоким примерно на 0,20, а теперь он постоянно был слишком низким примерно на 0,05. Это улучшение, поскольку отклонение обоих методов уменьшилось в 4 раза. Есть ли объяснение последнего открытия или отклонение между обоими методами примерно на 0,05 является просто фактом шума? Я решил пометить это как правильный ответ, но я надеюсь, что кто-нибудь сможет пролить свет на мои маленькие сомнения.
1 ответ
Разница в баллах обусловлена главным образом различными способами разделения наборов данных по GridSearchCV
и ваша функция, которая имитирует это. Подумай об этом так. Предположим, у вас есть 9 точек данных в вашем наборе данных. Теперь в GridSearchCV с 3 сгибами предположим, что распределение выглядит следующим образом:
train_cv_fold1_indices : 1 2 3 4 5 6
test_cv_fold1_indices : 7 8 9
train_cv_fold2_indices : 1 2 3 7 8 9
test_cv_fold2_indices : 4 5 6
train_cv_fold3_indices : 4 5 6 7 8 9
test_cv_fold3_indices : 1 2 3
Однако ваша функция, которая эмулирует GridSearchCV, может разделять данные другим способом, например, например:
train_indices : 1 3 5 7 8 9
test_indices : 2 4 6
Теперь, как вы можете видеть, это другое разделение набора данных, и, следовательно, классификатор, обученный на нем, может вести себя совершенно по-другому. (Он может даже вести себя одинаково, все зависит от точек данных и различных других факторов, например, насколько они актуальны, помогают ли они проверять различия между точками данных и т. Д.).
Итак, для того, чтобы идеально эмулировать GridSearchCV, вам необходимо выполнить разбиение таким же образом.
Проверьте источник GridSearchCV, и вы обнаружите, что в строке № 592, что для выполнения CV они вызывают другую функцию из check_cv
указан по этой ссылке. На самом деле он вызывает либо Kfold CV, либо стартап CV.
Поэтому, основываясь на ваших экспериментах, я бы предложил явно выполнить CV для вашего набора данных с использованием фиксированного случайного начального числа и функций, упомянутых выше (либо Kfold CV, либо начальное CV). Затем используйте тот же объект CV в своей функции эмуляции, чтобы получить более сопоставимый анализ. Тогда вы можете получить более подходящие значения.