Набор данных о болезни сердца Кливленда - не могу описать класс

Я использую набор данных Cleveland Heart Disease из UCI для классификации, но я не понимаю целевой атрибут.

Описание набора данных говорит, что значения идут от 0 до 4, но описание атрибута говорит:

0: <50% ишемической болезни

1: > 50% ишемической болезни

Я хотел бы знать, как это интерпретировать, является ли этот набор данных проблемой мультикласса или двоичной классификации? И должен ли я сгруппировать значения 1-4 в один класс (наличие заболевания)?

3 ответа

Решение

Если вы работаете с несбалансированным набором данных, вы должны использовать технику повторной выборки, чтобы получить лучшие результаты. В случае несбалансированных наборов данных классификатор всегда "прогнозирует" наиболее распространенный класс, не выполняя никакого анализа характеристик.

Вы должны попробовать SMOTE, это синтезирующие элементы для класса меньшинства, основанные на тех, которые уже существуют. Он работает случайным образом, выбирая точку из класса меньшинства и вычисляя k-ближайших соседей для этой точки.

Я также использовал метод перекрестной проверки K-fold вместе с SMOTE, перекрестная проверка гарантирует, что модель получит правильные шаблоны из данных.

При измерении производительности модели, метрика точности вводит в заблуждение, она показывает высокую точность, несмотря на то, что существует больше ложных срабатываний. Используйте метрики, такие как F1-оценка и MCC.

Рекомендации:

https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

  • этот набор данных должен быть мультиклассом или проблемой двоичной классификации?

    Без изменений набор данных готов к использованию для решения задачи классификации нескольких классов.

  • И должен ли я сгруппировать значения 1-4 в один класс (наличие заболевания)?

    Да, вы должны, если вы заинтересованы в использовании набора данных для задачи двоичной классификации.

Это в основном означает, что наличие различных сердечных заболеваний обозначено 1, 2, 3, 4, а отсутствие просто обозначено 0. Теперь большинство экспериментов, которые были проведены с этим набором данных, основаны на двоичной классификации, т.е. наличие (1, 2, 3, 4) против отсутствия (0). Одной из причин такого поведения может быть проблема дисбаланса классов (0 имеет около 160 выборок, а остальные 1, 2, 3 и 4 составляют другую половину) и небольшое количество выборок (всего около 300 выборок). Таким образом, имеет смысл рассматривать эти данные как проблему двоичной классификации, а не как классификацию нескольких классов, учитывая имеющиеся у нас ограничения.

Другие вопросы по тегам