SGDClassifier для нелинейных SVM
У меня есть огромные наборы данных
1) набор данных_1= (13000,2048) #13000 выборок и 2048 объектов каждый 2) набор данных_2= (15000,12000)
для того, чтобы ускорить вычисления л, используемые из sklearn
from sklearn.linear_model import SGDClassifier
model=SGDClassifier(loss="hinge", penalty="l2",random_state=42,n_jobs=-1)
Затем я применяю частичную подгонку к мини-пакетам по 256 образцов каждая, как указано ниже:
model.partial_fit(X_train_batch, y_train_batch, classes=np.unique(y_train),sample_weight=weights)
над 100 epochs
Я экономлю много времени по сравнению с одним LinearSVC()
или же SVC()
Мои вопросы следующие:
1) Как я могу использовать SGDClassifier
для нелинейных SVM, таких как: ядро RBF, треугольное ядро, ядро пересечения гистограммы...?
2) Какое значение параметра Штрафа C используется в SGDClassifier с loss="hinge"? Это параметр по умолчанию C=1.0
как в LinearSVC()
а также SVC()
?
2-б) Как я могу варьироваться C
значения в SGDClassifier?
Спасибо