Несбалансированные данные, дерево регрессии и избыточная выборка SMOTE

Я пытаюсь построить двоичное дерево классификации с пакетом rpart в R на наборе данных, но общая точность, достигнутая в модели, слишком высока (99,8%?), И дерево огромно со многими разбиениями.

Это будет признаком переоборудованной модели? Сокращение сложности с минимальными затратами не привело к тому, что сокращенное дерево будет сильно отличаться от полностью выращенного дерева при cp=0.

Если да, является ли это показателем того, что набор данных может быть несбалансированным, и, следовательно, я должен пересмотреть класс меньшинства (~15%), используя SMOTE?

Опять же, как можно определить по результатам модели CART, является ли набор данных несбалансированным?

Наконец, можно ли с уверенностью сказать, что уменьшение размера набора данных является разумной жертвой, когда речь идет об использовании SMOTE для балансировки несбалансированного набора данных?

Извините за множество вопросов и большое спасибо за вашу помощь.

0 ответов

Другие вопросы по тегам