Сочетание ударов и недостаточной выборки на weka
Согласно статье, написанной Chawla и др. (2002), лучшая производительность балансировки данных сочетает недостаточную выборку с SMOTE.
Я пытался объединить свой набор данных с использованием недостаточной выборки и SMOTE, но я немного запутался в атрибуте недостаточной выборки.
В weka есть Resample для уменьшения класса большинства. в Resample biasToUniformClass есть атрибут - использовать ли смещение по отношению к унифицированному классу. Значение 0 оставляет распределение классов как есть, а значение 1 обеспечивает равномерное распределение классов в выходных данных.
Я использую значение 0, и данные в классе большинства снижаются, так что меньшинство делает, и когда я использую значение 1, данные в большинстве снижаются, но в классе меньшинства, данные работают.
Я пытаюсь использовать значение 1 для этого атрибута, но я не использую smote для увеличения количества экземпляров класса меньшинства, потому что данные уже сбалансированы и результат также хорош.
Итак, это то же самое, что я комбинирую SMOTE и недостаточную выборку, или мне все еще нужно попробовать со значением 0 в этом атрибуте и сделать SMOTE?
1 ответ
Для недостаточной выборки см. Алгоритм EasyEnsemble ( реализация Weka была разработана Шубахом, Робинсоном и Валентини).
Алгоритм EasyEnsemble позволяет разбивать данные на определенное количество сбалансированных разделов. Чтобы достичь этого баланса, установите параметр numIterations равным:
(количество экземпляров большинства) / (количествоэкземпляров меньшинства) = numIterations
Например, если имеется 30 полных экземпляров с 20 в классе большинства и 10 в классе меньшинства, установите параметр numIterations равным 2 (т. Е. 20 экземпляров большинства / 10 экземпляров равны 2 сбалансированным разделам). Эти 2 раздела должны содержать по 20 экземпляров; каждый из них имеет одинаковые 10 экземпляров меньшинства и 10 различных экземпляров из класса большинства.
Затем алгоритм обучает классификаторы на каждом из сбалансированных разделов и во время тестирования объединяет группу классификаторов, обученных на каждом из сбалансированных разделов для прогнозирования.