Оценка многих условий взаимодействия в glmnet
Насколько я понимаю, glmnet берет матрицы, где каждый столбец является пояснительной переменной.
У меня есть датафрейм с ~10 объясняющими переменными (некоторые из которых являются факторами)
Как я могу взять формулу, такую как y~(x1*x2*x3)+(x4*x5)+x6 и оценить это с помощью glmnet?
Я считаю, что мне нужно было бы создать матрицу, в которой каждый член взаимодействия имеет свой собственный столбец, но я понятия не имею, как просто взять на вход входные данные формулу и переменные (некоторые из которых являются факторами) и получить на выходе матрицу, которую я могу легко вставить в glmnet.
1 ответ
Предположим, вы хотите модель формы y = b0 + b1*x1*x2 + b2*x3 + noise
где целевая переменная y
и все объясняющие переменные x1, x2, x3
хранятся в том же кадре данных....
Редактировать: Спасибо @BenBolker за подсказку model.matrix
,
С помощью model.matrix
следующий код обеспечивает решение:
library(glmnet)
# the original data frame and formula
set.seed(23)
dat <- data.frame(y=runif(5), x1=runif(5), x2=runif(5), x3=runif(5))
f <- as.formula(y~x1:x2+x3+0)
# no intercept here ('+0') because glmnet adds intercept by default
# transform dataframe to matrices as required by glmnet
x <- model.matrix(f, dat)
y <- as.matrix(dat$y, ncol=1)
# fit glmnet model with penalty parameter 0.001
g <- glmnet(x, y, lambda=0.001)
print(coef(g))
# 3 x 1 sparse Matrix of class "dgCMatrix"
# s0
# (Intercept) 0.3506450
# x3 0.2308045
# x1:x2 0.1016138
Только для полноты, вот мой оригинальный ответ без использования model.matrix
, что требует небольшого ручного вмешательства:
library(glmnet)
# the original data frame
set.seed(23)
dat <- data.frame(y=runif(5), x1=runif(5), x2=runif(5), x3=runif(5))
# transform dataframe to matrices as required by glmnet
x <- with(dat, as.matrix(cbind("x1*x2"=x1*x2, "x3"=x3)))
y <- with(dat, as.matrix(y, ncol=1))
# fit glmnet model with penalty parameter 0.001
g <- glmnet(x, y, lambda=0.001)
print(coef(g))
# 3 x 1 sparse Matrix of class "dgCMatrix"
# s0
# (Intercept) 0.3506450
# x1*x2 0.1016137
# x3 0.2308045