Использование refit() в auto-sklearn для пошагового обучения
У меня есть большой набор данных с 50k строк и 10k столбцов. Я пытаюсь подогнать эти данные, используя классификаторы в auto-sklearn. Из-за ограниченных ресурсов я разбил данные на партии и намереваюсь использовать дополнительное обучение. Можно ли использовать autosklearn.classification.AutoSklearnClassifier.fit () в первом пакете, за которым следует autosklearn.classification.AutoSklearnClassifier.refit () в остальных пакетах? Документация API гласит:
ремонт (X, у)
Установите все найденные модели в соответствие с новыми данными. Необходимо при использовании перекрестной проверки. Во время обучения auto-sklearn подходит для каждой модели k раз в наборе данных, но не сохраняет обученную модель и поэтому не может использоваться для прогнозирования новых точек данных. Этот метод подходит всем моделям, найденным во время вызова, чтобы соответствовать данным. Этот метод также может использоваться вместе с несогласными, чтобы избежать использования только 66% данных тренировки для соответствия окончательной модели. Параметры:
X: массивоподобная или разреженная матрица формы = [n_samples, n_features] обучающие входные выборки. y: массив, shape = [n_samples] или [n_samples, n_outputs] Цели.
Означает ли это, что восстановление действительно только в том случае, если для исходных данных используется перекрестная проверка, или первая строка означает, что последующие пакеты данных могут быть повторно обучены на той же модели?
Есть идеи / мысли?
1 ответ
refit
используется только для подбора оценщика на тренировочном наборе после перекрестной проверки. Метод, который вы ищете, partial_fit
например, вы можете использовать этот метод с SGDRegressor
, документы здесь