Что пошло не так с моей реализацией логистической регрессии в C++?
Я реализовал простую функцию логистической регрессии с помощью алгоритма IRLS, используя библиотеку линейной алгебры броненосца:
#include <iostream>
#include <string>
#include <boost/math/distributions/normal.hpp>
#include <boost/math/distributions/students_t.hpp>
#include <armadillo>
#include <cmath>
using namespace boost::math;
arma::mat getW(
arma::mat& beta,
arma::mat& X,
std::string family,
std::string link
)
{
arma::mat w;
if(family == "poisson") {
if(link == "identity") {
w = arma::diagmat(1/(X * beta));
}
}
else if(family == "binomial") {
if(link == "logit") {
arma::colvec tmp = exp(X * beta);
w = arma::diagmat(tmp/pow(1+tmp, 2));
}
}
else {
throw 1;
}
return w;
}
arma::mat getz(
arma::mat& y,
arma::mat& beta,
arma::mat& X,
std::string family,
std::string link
)
{
arma::mat z;
if(family == "poisson") {
if(link == "identity") {
z = y;
}
}
else if(family == "binomial") {
if(link=="logit") {
arma::mat tmp = exp(X * beta);
z = X*beta + y % (pow(1+tmp, 2)/tmp) - 1 - tmp;
}
}
else {
throw 1;
}
return z;
}
inline arma::mat glmMat(
arma::mat& y,
arma::mat& x,
std::string family,
std::string link
)
{
int n = x.n_rows;
int k = x.n_cols;
// add a col of all ones
arma::mat allOne(n, 1, arma::fill::ones);
x.insert_cols(0, allOne);
++k;
arma::mat res(k, 4);
if(family=="binomial" and link=="logit")
{
arma::mat coef(k, 1, arma::fill::zeros);
arma::mat W = getW(coef, x, family, link);
arma::mat z = getz(y, coef, x, family, link);
try {
arma::mat J = x.t() * W * x;
arma::colvec coef1 = arma::solve(J, x.t()*W*z);
double coefdiff = max(abs(coef - coef1));
while(coefdiff >= 0.00001) {
coef = coef1;
W = getW(coef, x, family, link);
z = getz(y, coef, x, family, link);
J = x.t() * W * x;
coef1 = arma::solve(J, x.t()*W*z);
coefdiff = max(abs(coef - coef1));
}
arma::mat coefVarMatrix = J.i();
arma::colvec coefVar = coefVarMatrix.diag();
arma::colvec coefSe = pow(coefVar, .5);
arma::colvec zscore = coef / coefSe;
res.col(0) = coef;
res.col(1) = coefSe;
res.col(2) = zscore;
// calculate p values
auto d = normal_distribution<>();
for(int i=0; i<k; i++) {
double p = 2 * (1 - cdf(d, fabs(res(i, 2))));
if(p < 0 or p > 1) {
std::cerr << "Pval is abnormal from glm, dumping data to /tmp/tmpx.csv and /tmp/tmpy.csv" << std::endl;
x.save("/tmp/tmpx.csv", arma::csv_ascii);
y.save("/tmp/tmpy.csv", arma::csv_ascii);
throw 1;
}
res(i, 3) = p;
}
}
catch(...) {
std::cout << "something wrong..." << std::endl;
}
}
else {
throw 1;
}
return res;
}
int main(int argc, char const* argv[])
{
{
int nr = 5000;
int ncx = 50;
arma::mat x(nr, ncx, arma::fill::randu);
arma::mat y = arma::randi<arma::mat>(nr, 1, arma::distr_param(0, 1));
arma::mat xcol;
arma::mat res(ncx, 4);
for(int i=0; i<ncx; i++) {
xcol = x(arma::span::all, i);
res.row(i) = (glmMat(y, xcol, "binomial", "logit")).row(1);
}
res.print("res..........");
}
return 0;
}
Скомпилировал это так:
g++ glm.cpp --std=c++11 -larmadillo -llapack -lblas -o bin
Основная функция имитирует набор данных 5000x50 и выполняет логистическую регрессию для каждого из них, весь процесс занимает около 23 секунд на моем ноутбуке.
Делая в основном то же самое в R, это занимает около 2 секунд:
testglm = function() {
x = matrix(rnorm(5000*50), 5000)
y = matrix(sample(0:1, 5000, repl=T), 5000)
res = apply(x, 2, function(coli) summary(glm(y~coli, family=binomial))$coef[2, ])
# print(res)
}
system.time(testglm())
user system elapsed
2.049 0.000 2.049
Мне интересно, что пошло не так с моей реализацией?