Как оценить набор данных для перекрытия классов
Я использую Weka для разработки классификатора для медицинской проблемы. Этот набор данных имеет ситуацию дисбаланса классов, и я хочу знать, есть ли проблема перекрытия классов. Каждая запись имеет 30 атрибутов. Как я могу узнать, есть ли перекрытие классов с помощью функций Weka?
3 ответа
Перекрытие классов происходит, когда некоторые образцы из разных классов имеют очень похожие характеристики
- Сгруппируйте ваш набор данных.
- Если ваши экземпляры принадлежат одному кластеру, то они очень похожи.
- Затем найдите коэффициент ошибок, используя фактическое членство в классе.
- Если ваши экземпляры принадлежат одному кластеру, но их классы разные, то вы нашли то, что просите.
Чтобы решить проблему дисбаланса класса, вы можете использовать SMOTE. Он находится в контролируемом Weka фильтре (экземпляр). Но можете ли вы объяснить, что вы подразумеваете под перекрытием классов?
Я думаю, что вы имеете в виду под "перекрытием классов", существуют подобные экземпляры, которые принадлежат разным классам. Просто вы можете удалить их. В awk вы можете сделать следующее:
awk '!NF || !seen[$0]++' inputFile > outputFile