Нормализующий набор данных с рубином
У меня есть набор данных, который колеблется от 1 до 30000
Я хочу, чтобы это нормализовалось, чтобы оно стало от 0,1 до 10
Каков наилучший метод / функция для этого?
Был бы очень признателен, если бы вы могли привести пример кода!
4 ответа
Вот фрагмент кода, предполагая, что вы хотите линейную нормализацию. Это очень упрощенная версия (просто прямой код, без методов), так что вы можете увидеть "как это работает" и применить его ко всему.
xmin = 1.0
xmax = 30000.0
ymin = 0.1
ymax = 10.0
xrange = xmax-xmin
yrange = ymax-ymin
y = ymin + (x-xmin) * (yrange / xrange)
И здесь это делается как функция:
def normalise(x, xmin, xmax, ymin, ymax)
xrange = xmax - xmin
yrange = ymax - ymin
ymin + (x - xmin) * (yrange.to_f / xrange)
end
puts normalise(2000, 1, 30000, 0.1, 10)
(Обратите внимание to_f
гарантирует, что мы не попадем в черную дыру целочисленного деления)
Вот Ruby Way для общего случая установки минимального значения массива в 0.0 и максимального значения в 1.0.
class Array
def normalize!
xMin,xMax = self.minmax
dx = (xMax-xMin).to_f
self.map! {|x| (x-xMin) / dx }
end
end
a = [3.0, 6.0, 3.1416]
a.normalize!
=> [0.0, 1.0, 0.047199999999999985]
Для мин и макс, кроме 0 и 1, добавьте аргументы в normalize!
в манере ответа Эльфстрома.
Это хорошо известный способ масштабирования номеров коллекций. У него есть более точное имя, но я не могу вспомнить и не могу его погуглить.
def scale(numbers, min, max)
current_min = numbers.min
current_max = numbers.max
numbers.map {|n| min + (n - current_min) * (max - min) / (current_max - current_min)}
end
dataset = [1,30000,15000,200,3000]
result = scale(dataset, 0.1, 10.0)
=> [0.1, 10.0, 5.04983499449982, 0.165672189072969, 1.08970299009967]
scale(result, 1, 30000)
=> [1.0, 30000.000000000004, 15000.0, 199.99999999999997, 3000.0000000000005]
Как видите, вы должны знать о проблемах округления. Вы, вероятно, также должны убедиться, что вы не получите целые числа как min и max, потому что целочисленное деление повредит результат.