Можете ли вы использовать счет в входе логистической регрессии sklearn?

Question

Можете ли вы использовать счет в входе логистической регрессии sklearn?

Итак, я знаю, что в R вы можете предоставить данные для логистической регрессии в этой форме:

model <- glm( cbind(count_1, count_0) ~ [features] ..., family = 'binomial' )

Есть ли способ сделать что-то вроде cbind(count_1, count_0) с sklearn.linear_model.LogisticRegression? Или я действительно должен предоставить все эти дубликаты строк? (Мои функции категорически, так что было бы много избыточности.)

0

python scikit-learn logistic-regression bernoulli-probability

Источник

user1876833 20 апр '16 в 23:47

1 ответ

Другие вопросы по тегам python scikit-learn logistic-regression bernoulli-probability

user1030820 21 апр '16 в 02:47 2016-04-21 02:47 · Answer 1 · 2016-04-21 02:47

Если они категоричны - вам следует предоставить бинаризованную версию. Я не знаю, как работает этот код в R, но вы должны всегда преобразовывать вашу категориальную функцию в двоичную форму. Потому что вы должны подчеркнуть, что каждое значение вашей функции не связано с другой, то есть для функции "blood_type" с возможными значениями 1,2,3,4 ваш классификатор должен узнать, что 2 не связано с 3, а 4 не является связано с 1 в любом смысле. Это достигается бинаризацией.

Если у вас слишком много функций после бинаризации - вы можете уменьшить размерность бинаризованного набора данных с помощью FeatureHasher или более сложных методов, таких как PCA.