Крупномасштабная логистическая регрессия данных

У меня есть следующие входные данные:

head(data1)
               VarA VarB   VarC           VarD VarE  VarG  VarH VarI
2016-06-01 09:30:05 14.2  31228 ABCD IS Equity    1   139   192   23
2016-06-01 09:30:07 14.2  31128 ABCD IS Equity    0     0     0    0
2016-06-01 09:30:09 14.2  36128 ABCD IS Equity    1   138   192   23
2016-06-01 09:30:19 14.2  36028 ABCD IS Equity    0     0     0    0
2016-06-01 09:30:21 14.2  27028 ABCD IS Equity    1   112   190   23
2016-06-01 09:30:37 14.2  26528 ABCD IS Equity    0     0     0    0

VarA имеет тип POSIXct, VarD имеет тип chr а также rests имеют тип num,

VarE моя зависимая переменная. VarC, VarB, VarG, VarH and VarI мои объяснительные переменные. Общее количество строк набора данных: 7.4 million, Я хочу запустить логистическую регрессию. Я старался bigglm от biglm использование пакета binomial family, Но это failing to converge, Из-за чего я не получаю правильные значения отклонения. Так что у меня проблемы с вычислениями McFadden's R-Sqr значение для того же. Можете ли вы предложить какой-либо альтернативный пакет / способ?

Заранее спасибо.

1 ответ

sgd Пакет позволит вам обрабатывать данные выборки с помощью метода стохастического градиентного спуска.

Другие вопросы по тегам