Набор для нормализации теста, но более высокий диапазон

Question

Набор для нормализации теста, но более высокий диапазон

Я нормализую и масштабирую свой тренировочный набор с помощью:

# zero mean
feat = (feat - feat.mean()) / feat.std()

# scale between -1, 1
feat = ((feat - feat.min()) / (feat.max() - feat.min())) * 2 - 1

Это прекрасно работает. Точно так же я преобразую тестовый набор, используя среднее значение, стандартное отклонение, минимум, максимум из тренировочного набора. Это нормально работает, если среднее и максимальное значения в тестовом наборе такие же, как в обучающем наборе. Однако, если диапазон непреобразованной функции в тестовом наборе отличается, то после масштабирования у меня будут значения, превышающие -1, 1. Как с этим бороться?

1

machine-learning data-science cross-validation feature-engineering feature-scaling

Источник

user774907 08 сен '19 в 09:22

2 ответа

Другие вопросы по тегам machine-learning data-science cross-validation feature-engineering feature-scaling

user1140684 08 сен '19 в 09:40 2019-09-08 09:40 · Answer 1 · 2019-09-08 09:40

Если большая часть ваших тестовых входных данных поступает со значениями выше или ниже крайних значений, которые вы использовали для обучения модели, то в идеале вам следует переобучить свою модель, поскольку ваши обучающие и тестовые распределения отличаются.

Для необычных (выбросов), таких как тестовые экземпляры, вы можете обрезать значения, чтобы они находились между максимальным / минимальным значением для масштабирования minmax.

В случае нормализации ваш тест может иметь любое значение, вы просто получите большой z-счет для крайностей.

user6491653 08 сен '19 в 09:32 2019-09-08 09:32 · Answer 2 · 2019-09-08 09:32

Я думаю, что единственный способ - нормализовать ваши данные с минимальным и максимальным значениями всех данных (обучение и тестирование установлены вместе).

0

Источник

user6491653 08 сен '19 в 09:32