Масштабирование функций

Я прочитал это из сообщения, в котором кто-то сказал:

Для масштабирования функций вы изучаете средние значения и стандартное отклонение обучающего набора, а затем:

  • Стандартизируйте обучающую выборку, используя средства обучающей выборки и стандартные отклонения.
  • Стандартизируйте любой набор тестов, используя средние значения обучающего набора и стандартные отклонения.

Но теперь мой вопрос: после подбора модели с использованием масштабированных обучающих данных, следует ли применять эту подогнанную модель к масштабированным или немасштабированным тестовым данным? Спасибо!

1 ответ

Решение

Да, вам также следует масштабировать тестовые данные. Если вы масштабировали свои обучающие данные и подогнали модель к этим масштабированным данным, то тестовый набор также должен пройти эквивалентную предварительную обработку. Это стандартная практика, поскольку она гарантирует, что в качестве входных данных модели всегда предоставляется набор данных согласованной формы.

В Python процесс может выглядеть следующим образом:

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

Подробное описание этой темы есть в другой ветке, которая может вас заинтересовать.

Другие вопросы по тегам