Kfold Cross Validation и GridSearchCV
Ну, я пытаюсь понять, как и в какой момент в алгоритме применять Kfold CV и GridSearchCV. Также, если я правильно понимаю, GridSearchCV используется для настройки гиперпараметра, т.е. какие значения аргументов дадут лучший результат, а Kfold CV используется для улучшения обобщения, так что мы тренируемся как на разных сгибах и, следовательно, уменьшаем смещение, если данные упорядочены каким-то конкретным образом и, следовательно, возрастающее обобщение. Теперь вопрос в том, не выполняет ли GridSearchCV перекрестную проверку и с параметром CV. Итак, почему мы требуем Kfold CV, и если мы делаем, делаем ли мы это до GridSearchCV? Небольшая схема процесса была бы чрезвычайно полезна.
2 ответа
GridSearchCV
это конструкция более высокого уровня, чем KFold
, Первый использует последний (или другие, как это).
KFold
это относительно низкоуровневая конструкция, которая дает вам последовательность индексов поезда / теста. Вы можете использовать эти индексы для выполнения нескольких задач, в том числе для определения производительности OOB модели и / или настройки гиперпараметров (которые в основном каким-то образом ищут гиперпараметры на основе производительности OOB).
GridSearchCV
это высокоуровневая конструкция, которая использует механизм CV как KFold
(в своем cv
аргумент). Он использует механизм CV для поиска по гиперпараметрам (в этом случае, используя поиск по сетке по параметрам).
Grid Search используется для выбора наилучшей комбинации гиперпараметров прогнозирующих алгоритмов (настройка гиперпараметров оценщика), тогда как KFold Предоставляет индексы поезда / теста для разделения данных в наборах поездов / тестов. Он разбивает набор данных на k последовательных сгибов (без тасования по умолчанию).
Затем каждый сгиб используется один раз в качестве проверки, а оставшиеся сгибы k - 1 образуют тренировочный набор. Он используется для получения более точной оценки точности прогноза (которую мы можем использовать в качестве прокси для правильности подбора модели).