Вызов функции с аргументами в dplyr::do с использованием multidplyr
Я пытаюсь использовать multidplyr
ускорить получение residuals
из regression
поместиться. Я создал function
это соответствует regression
модель, чтобы получить residuals
, который в дополнение к данным, получает еще два аргумента.
Вот function
:
func <- function(df,reg.mdl,mdl.fmla)
{
if(reg.mdl == "linear"){
df$resid <- lm(formula = mdl.fmla, data = df)$residuals
} else if(reg.mdl == "poisson"){
df$resid <- residuals(object = glm(formula = mdl.fmla,data = df,family = "poisson"),type='pearson')
}
return(df)
}
Вот пример данных, на которых я попробую свои multidplyr
подход:
set.seed(1)
ds <- data.frame(group=c(rep("a",100), rep("b",100),rep("c",100)),sex=rep(sample(c("F","M"),100,replace=T),3),y=rpois(300,10))
model.formula <- as.formula("y ~ sex")
regression.model <- "poisson"
И вот multidplyr
подход:
ds %>% partition(group) %>% cluster_library("tidyverse") %>%
cluster_assign_value("func", func) %>%
do(results = func(df=.,reg.mdl=regression.model,mdl.fmla=model.formula)) %>% collect() %>% .$results %>% bind_rows()
Это выдает эту ошибку, хотя:
Error in checkForRemoteErrors(lapply(cl, recvResult)) :
3 nodes produced errors; first error: object 'regression.model' not found
In addition: Warning message:
group_indices_.grouped_df ignores extra arguments
Так что я думаю, как я передаю аргументы func
от do
неправильно.
Любая идея, что это правильный путь?
1 ответ
Решение
Ошибка, вызванная тем, что кластеры не имеют таких объектов в своей среде. Таким образом, требуется присвоить переменные процессу кластера:
ds %>%
partition(group) %>%
cluster_library("tidyverse") %>%
cluster_assign_value("func", func) %>%
cluster_copy(regression.model) %>%
cluster_copy(model.formula) %>%
do(results = func(
df = .,
reg.mdl = regression.model,
mdl.fmla = model.formula
)) %>%
collect() %>%
.$results %>%
bind_rows()
Или другим способом (я предпочитаю устанавливать кластеры перед цепочкой):
CL <- makePSOCKcluster(3)
clusterEvalQ(cl = CL, library("tidyverse"))
clusterExport(cl = CL, list("func", "regression.model", "model.formula"))
ds %>%
partition(group, cluster = CL) %>%
do(results = func(
df = .,
reg.mdl = regression.model,
mdl.fmla = model.formula
)) %>%
collect() %>%
.$results %>%
bind_rows()
stopCluster(CL)