Как нормализовать данные с близкого расстояния?
Я использую логистическую регрессию. У меня есть некоторые особенности. Их значения находятся в диапазоне от 0 до 1 (максимальное значение, которое может выдать функция, равно 1, а минимальное значение равно 0), но как в обучающих, так и в тестовых данных максимальное значение очень низкое (например, 0,11), поэтому все значения низкие и близко друг к другу. Мой вопрос заключается в том, что является наилучшим стандартным способом нормализации / переноса значений признаков в нормальную шкалу (от 0 до 1), чтобы на логистическую регрессию не влияли неподходящие значения.
Любая помощь будет высоко оценен.
1 ответ
Существуют разные методы масштабирования / нормализации объектов.
Если вы просто хотите, чтобы значения объектов находились в диапазоне [0..1]
выполните следующие действия для каждой функции:
Некоторые учебники рекомендуют масштабировать функции в диапазоне [-0.5 .. 0.5]
:
Я предпочитаю масштабировать объекты по их стандартному отклонению, как объяснено в лекциях Стэнфорда (см. Главу Preprocessing your data
):