Как нормализовать данные с близкого расстояния?

Я использую логистическую регрессию. У меня есть некоторые особенности. Их значения находятся в диапазоне от 0 до 1 (максимальное значение, которое может выдать функция, равно 1, а минимальное значение равно 0), но как в обучающих, так и в тестовых данных максимальное значение очень низкое (например, 0,11), поэтому все значения низкие и близко друг к другу. Мой вопрос заключается в том, что является наилучшим стандартным способом нормализации / переноса значений признаков в нормальную шкалу (от 0 до 1), чтобы на логистическую регрессию не влияли неподходящие значения.

Любая помощь будет высоко оценен.

1 ответ

Существуют разные методы масштабирования / нормализации объектов.

Если вы просто хотите, чтобы значения объектов находились в диапазоне [0..1] выполните следующие действия для каждой функции:

введите описание изображения здесь

Некоторые учебники рекомендуют масштабировать функции в диапазоне [-0.5 .. 0.5]:

введите описание изображения здесь

Я предпочитаю масштабировать объекты по их стандартному отклонению, как объяснено в лекциях Стэнфорда (см. Главу Preprocessing your data):

введите описание изображения здесь