Несбалансированные данные, дерево регрессии и избыточная выборка SMOTE

Question

Несбалансированные данные, дерево регрессии и избыточная выборка SMOTE

Я пытаюсь построить двоичное дерево классификации с пакетом rpart в R на наборе данных, но общая точность, достигнутая в модели, слишком высока (99,8%?), И дерево огромно со многими разбиениями.

Это будет признаком переоборудованной модели? Сокращение сложности с минимальными затратами не привело к тому, что сокращенное дерево будет сильно отличаться от полностью выращенного дерева при cp=0.

Если да, является ли это показателем того, что набор данных может быть несбалансированным, и, следовательно, я должен пересмотреть класс меньшинства (~15%), используя SMOTE?

Опять же, как можно определить по результатам модели CART, является ли набор данных несбалансированным?

Наконец, можно ли с уверенностью сказать, что уменьшение размера набора данных является разумной жертвой, когда речь идет об использовании SMOTE для балансировки несбалансированного набора данных?

Извините за множество вопросов и большое спасибо за вашу помощь.

1

tree classification rpart oversampling

Источник

user10608041 05 ноя '18 в 15:22

0 ответов

Другие вопросы по тегам tree classification rpart oversampling