Крупномасштабная логистическая регрессия данных
У меня есть следующие входные данные:
head(data1)
VarA VarB VarC VarD VarE VarG VarH VarI
2016-06-01 09:30:05 14.2 31228 ABCD IS Equity 1 139 192 23
2016-06-01 09:30:07 14.2 31128 ABCD IS Equity 0 0 0 0
2016-06-01 09:30:09 14.2 36128 ABCD IS Equity 1 138 192 23
2016-06-01 09:30:19 14.2 36028 ABCD IS Equity 0 0 0 0
2016-06-01 09:30:21 14.2 27028 ABCD IS Equity 1 112 190 23
2016-06-01 09:30:37 14.2 26528 ABCD IS Equity 0 0 0 0
VarA
имеет тип POSIXct
, VarD
имеет тип chr
а также rests
имеют тип num
,
VarE
моя зависимая переменная. VarC, VarB, VarG, VarH and VarI
мои объяснительные переменные. Общее количество строк набора данных: 7.4 million
, Я хочу запустить логистическую регрессию. Я старался bigglm
от biglm
использование пакета binomial family
, Но это failing to converge
, Из-за чего я не получаю правильные значения отклонения. Так что у меня проблемы с вычислениями McFadden's R-Sqr
значение для того же. Можете ли вы предложить какой-либо альтернативный пакет / способ?
Заранее спасибо.
1 ответ
sgd
Пакет позволит вам обрабатывать данные выборки с помощью метода стохастического градиентного спуска.