Можете ли вы использовать счет в входе логистической регрессии sklearn?
Итак, я знаю, что в R вы можете предоставить данные для логистической регрессии в этой форме:
model <- glm( cbind(count_1, count_0) ~ [features] ..., family = 'binomial' )
Есть ли способ сделать что-то вроде cbind(count_1, count_0)
с sklearn.linear_model.LogisticRegression? Или я действительно должен предоставить все эти дубликаты строк? (Мои функции категорически, так что было бы много избыточности.)
1 ответ
Если они категоричны - вам следует предоставить бинаризованную версию. Я не знаю, как работает этот код в R, но вы должны всегда преобразовывать вашу категориальную функцию в двоичную форму. Потому что вы должны подчеркнуть, что каждое значение вашей функции не связано с другой, то есть для функции "blood_type" с возможными значениями 1,2,3,4 ваш классификатор должен узнать, что 2 не связано с 3, а 4 не является связано с 1 в любом смысле. Это достигается бинаризацией.
Если у вас слишком много функций после бинаризации - вы можете уменьшить размерность бинаризованного набора данных с помощью FeatureHasher или более сложных методов, таких как PCA.