Последовательный выбор переменных и настройка гиперпараметров
У меня есть набор данных с кучей функций, большинство из которых связаны между собой. Таким образом, я хотел бы выполнить исключение некоторых переменных (например, с помощью RFE
или же SelectKBest
). Я обнаружил, что, если я выполню такой выбор переменной, то последую некоторую настройку гиперпараметра, используя GridSearchCV
а затем, в свою очередь, еще один раунд выбора переменных для уже ограниченного набора функций путем передачи параметров, найденных на предыдущем шаге, в качестве аргументов модели (Ridge
а также SVC(kernel='rbf')
в моем случае) средняя перекрестная оценка эффективности увеличивается. Это плохая практика для такого двойного выбора переменных? Это вносит какую-либо предвзятость или приводит к какой-то конкретной проблеме?
Заранее спасибо.