Несбалансированные данные, дерево регрессии и избыточная выборка SMOTE
Я пытаюсь построить двоичное дерево классификации с пакетом rpart в R на наборе данных, но общая точность, достигнутая в модели, слишком высока (99,8%?), И дерево огромно со многими разбиениями.
Это будет признаком переоборудованной модели? Сокращение сложности с минимальными затратами не привело к тому, что сокращенное дерево будет сильно отличаться от полностью выращенного дерева при cp=0.
Если да, является ли это показателем того, что набор данных может быть несбалансированным, и, следовательно, я должен пересмотреть класс меньшинства (~15%), используя SMOTE?
Опять же, как можно определить по результатам модели CART, является ли набор данных несбалансированным?
Наконец, можно ли с уверенностью сказать, что уменьшение размера набора данных является разумной жертвой, когда речь идет об использовании SMOTE для балансировки несбалансированного набора данных?
Извините за множество вопросов и большое спасибо за вашу помощь.