Как оценить набор данных для перекрытия классов

Я использую Weka для разработки классификатора для медицинской проблемы. Этот набор данных имеет ситуацию дисбаланса классов, и я хочу знать, есть ли проблема перекрытия классов. Каждая запись имеет 30 атрибутов. Как я могу узнать, есть ли перекрытие классов с помощью функций Weka?

3 ответа

Решение

Перекрытие классов происходит, когда некоторые образцы из разных классов имеют очень похожие характеристики

  1. Сгруппируйте ваш набор данных.
  2. Если ваши экземпляры принадлежат одному кластеру, то они очень похожи.
  3. Затем найдите коэффициент ошибок, используя фактическое членство в классе.
  4. Если ваши экземпляры принадлежат одному кластеру, но их классы разные, то вы нашли то, что просите.

Чтобы решить проблему дисбаланса класса, вы можете использовать SMOTE. Он находится в контролируемом Weka фильтре (экземпляр). Но можете ли вы объяснить, что вы подразумеваете под перекрытием классов?

Я думаю, что вы имеете в виду под "перекрытием классов", существуют подобные экземпляры, которые принадлежат разным классам. Просто вы можете удалить их. В awk вы можете сделать следующее:

awk '!NF || !seen[$0]++' inputFile > outputFile

Другие вопросы по тегам