Adaboost против гауссовских наивных байесовских
Я новичок в Adaboost, но читал об этом, и это казалось идеальным решением проблемы, над которой я работал.
У меня есть набор данных, где классы "Вверх" и "Вниз". Гауссовский наивный байесовский классификатор классифицирует оба класса с точностью ~55% (слабо точная). Я думал, что использование Adaboost с Gaussian Naive Bayes в качестве моей базовой оценки позволит мне получить большую точность, однако, когда я делаю это, моя точность падает примерно до 45-50%.
Почему это? Я нахожу очень необычным то, что Adaboost не справляется со своей базовой оценкой. Кроме того, будут полезны любые советы по улучшению работы Adaboost. Я пробовал это со многими различными оценщиками с подобными плохими результатами.
1 ответ
Причиной может быть дилемма Diversity методов Ensemble , что особенно касается алгоритма Adaboost. Разнообразие — это ошибка между классификаторами компонентов алгоритма Adaboost, которую мы предпочитаем не коррелировать. В противном случае классификаторы компонентов будут работать хуже, чем классификаторы отдельных компонентов. С другой стороны, если мы используем слабые базовые классификаторы, но достигаем разумной точности, окончательный ансамбль будет иметь более высокую точность.
Это хорошо объяснено в этой статье. Из которого мы можем получить это объяснение:
Дилемма точности и разнообразия Adaboost
Эта диаграмма представляет собой график рассеяния, где каждая точка соответствует классификатору компонентов. Значение координаты x точки является значением разнообразия соответствующего классификатора компонентов, а значение координаты y является значением точности соответствующего классификатора компонентов. Из этого рисунка видно, что, если классификаторы компонентов слишком точны, трудно найти очень разнообразные, а сочетание этих точных, но неразнообразных классификаторов часто приводит к очень ограниченному улучшению (Windeatt, 2005). С другой стороны, если классификаторы компонентов слишком неточны, хотя мы можем найти разные, результат комбинирования может быть хуже, чем при комбинировании более точных и разнообразных классификаторов компонентов. Это связано с тем, что если в результате комбинации преобладает слишком много неточных классификаторов компонентов,
Чтобы напрямую ответить на ваш вопрос, может случиться так, что использование гауссовского наивного байесовского метода в качестве базовых оценок создает классификаторы, которые не расходятся (достаточно) друг с другом (диверсифицируют ошибку), поэтому Adaboost обобщает даже хуже, чем один гауссовский наивный байесовский метод.