Количество соседей в классификаторе случайных подпространств КНН
Я построил модель классификатора, используя KNN в качестве учащихся для ансамбля на основе метода случайных подпространств.
У меня есть три предиктора, размерность которых составляет 541 выборка, и я разрабатываю процедуру оптимизации, чтобы найти наилучшее k (число соседей). Я выбрал k, которые максимизируют AUC классификатора, производительность которого вычисляется с помощью 10-кратной перекрестной проверки. Результат для лучшего k был 269 для каждого отдельного слабого ученика (то есть 60 в результате подобной оптимизации).
Теперь мой вопрос: слишком много 269 соседей? Я доверяю результатам оптимизации, но я никогда не использовал так много соседей, и я беспокоюсь о переоснащении.
Заранее спасибо, депутат
1 ответ
Выбор значения k в k-NN скорее зависит от данных. Мы можем спорить о более общих характеристиках меньшего или большего выбора k-значений, но указание определенного числа как хорошее / плохое сказать не очень точно. Из-за этого, если ваша реализация CV правильная, вы можете доверять результатам и двигаться дальше, потому что резюме даст оптимальное значение для вашего конкретного случая. Для более общего обсуждения, мы можем сказать следующее о выборе значения k:
1- Меньший выбор k-значения. Небольшой выбор k-значений может повысить общую точность и будет менее затратным в реализации, но сделает систему менее устойчивой к шумным данным.
2- Большой выбор k-значения: Большой выбор k-значений сделает систему более устойчивой к шумным данным, но будет более дорогостоящей для выполнения и будет иметь более слабые границы принятия решений по сравнению с меньшими k-значениями.
Вы всегда можете сравнить эти общие характеристики при выборе значения k в вашем приложении. Тем не менее, для выбора оптимальных значений, используя алгоритм, такой как CV, даст вам определенный ответ.