Алгоритм: поиск моды с несовершенными значениями
Я хочу найти режим набора данных, в котором числа близки, но не точны. Например, допустим, у меня есть следующий массив:
[0,00, 100,12, 101,00, 99,75, 97,5, 102,4, 36,34, 103,11, 100,20, 75,0]
Я хочу получить число около 100 из этого массива. Я мог бы просто взять среднее, но я не хочу, чтобы 0,00, 36,34 и 75,00 испортили остальные цифры.
Еще один способ выразить это - я хочу получить среднее значение, исключая те, которые не близки к другим.
Спасибо!
2 ответа
Как насчет использования медианы вместо среднего?
http://en.wikipedia.org/wiki/Median
Или используйте "усеченное среднее". Отбросьте верхние 10% и нижние 10% значений, рассчитайте среднее значение только для остатка. Это предположительно более стабильно.
Быстрое решение состоит в том, чтобы вычислить гистограмму и найти ее максимум. Вы можете играть с размером корзины.