Сколько меток приемлемо перед использованием регрессии над классификацией
У меня есть проблема, когда я пытаюсь использовать контролируемое обучение в Python. У меня есть серия координат x,y, которые, как я знаю, принадлежат метке в одном наборе данных. В другом у меня только координаты x,y. Я собираюсь использовать один набор для обучения другого, мой подход заключается в обучении под наблюдением и использовании алгоритма классификации (линейного дискриминантного анализа), поскольку число меток является дискретным. Хотя они являются дискретными, их большое количество (n=~80000). Мой вопрос, при каком количестве меток я должен рассматривать регрессию по классификации, где регрессия лучше подходит для непрерывных меток. Я использую SciKit в качестве пакета для машинного обучения, и в качестве руководства я использую отличный учебник astronml.orgs.
1 ответ
Это не о цифрах. Речь идет о том, чтобы быть непрерывным или нет. Неважно, если у вас есть 80000 классов или даже больше; до тех пор, пока не существует корреляции между соседними классами (например, для классов i и i+1), вы должны использовать классификацию (не регрессию).
Регрессия имеет смысл только тогда, когда метки являются непрерывными (например, действительными числами) или, по крайней мере, когда есть корреляция между смежными классами (например, когда метки показывают количество чего-либо, вы можете сделать регрессию и затем округлить результаты),