Образец для создания равномерного распределения из неоднородных данных
Учитывая набор данных с неравномерным распределением (высоко достигший максимума), я хочу сделать повторную выборку, чтобы создать новый набор данных с приблизительно равномерным распределением. Мой подход:
- Разделите данные на корзины.
- Уровень целевой ячейки = наименьшее количество выборок на ячейку среди всех ячейок.
- Случайным образом удаляйте выборки до тех пор, пока каждый счетчик не станет равным целевому уровню.
Есть ли лучшая техника?
1 ответ
Решение
Мы знаем, что для равномерного распределения мы имеем
среднее = (а + б) / 2
дисперсия = (ba)^2 / 12
Таким образом, вы можете просто сконструировать их и выбрать из равномерного распределения с этими параметрами, где вы либо установите a = min (данные) и b = max(данные), либо, возможно, a = mean (наименьший_бин) и b = среднее (наибольший_бин) или что-то в этом роде. как это. То, как вы хотите установить a и b, зависит от ваших данных и того, чего вы хотите достичь