Использование parLapply и clusterExport внутри функции
Я задал связанный вопрос здесь, и ответ сработал хорошо: используя parLapply параллельного интерфейса: невозможно получить доступ к переменным внутри параллельного кода
Проблема в том, что когда я пытаюсь использовать ответ внутри функции, он не будет работать, так как я думаю, что это имеет отношение к среде по умолчанию clusterExport
, Я прочитал виньетку и посмотрел файл справки, но подхожу к этому с очень ограниченной базой знаний. То, как я использовал parLapply
Я ожидал, что он будет вести себя подобно lapply
но это не похоже на.
Вот моя попытка:
par.test <- function(text.var, gc.rate=10){
ntv <- length(text.var)
require(parallel)
pos <- function(i) {
paste(sapply(strsplit(tolower(i), " "), nchar), collapse=" | ")
}
cl <- makeCluster(mc <- getOption("cl.cores", 4))
clusterExport(cl=cl, varlist=c("text.var", "ntv", "gc.rate", "pos"))
parLapply(cl, seq_len(ntv), function(i) {
x <- pos(text.var[i])
if (i%%gc.rate==0) gc()
return(x)
}
)
}
par.test(rep("I like cake and ice cream so much!", 20))
#gives this error message
> par.test(rep("I like cake and ice cream so much!", 20))
Error in get(name, envir = envir) : object 'text.var' not found
2 ответа
По умолчанию clusterExport
смотрит в .GlobalEnv
для объектов для экспорта, которые названы в varlist
, Если ваши объекты не находятся в .GlobalEnv
, ты должен сказать clusterExport
в какой среде он может найти эти объекты.
Вы можете изменить свой clusterExport
к следующему (что я не проверял, но вы сказали, работает в комментариях)
clusterExport(cl=cl, varlist=c("text.var", "ntv", "gc.rate", "pos"), envir=environment())
Таким образом, он будет искать в среде функции объекты для экспорта.
Другое решение - включить дополнительные переменные в качестве аргументов вашей функции; parLapply также экспортирует их. Если "text.var" - большие данные, то стоит сделать это аргументом, к которому применяется, а не индексом, потому что тогда экспортируется только часть text.var, относящаяся к каждому работнику, а не весь объект каждому работнику.
par.test <- function(text.var, gc.rate=10){
require(parallel)
pos <- function(i) {
paste(sapply(strsplit(tolower(i), " "), nchar), collapse=" | ")
}
cl <- makeCluster(mc <- getOption("cl.cores", 4))
parLapply(cl, text.var, function(text.vari, gc.rate, pos) {
x <- pos(text.vari)
if (i%%gc.rate==0) gc()
x
}, gc.rate, pos)
}
Это также концептуально приятно. (Редко необходимо явно вызывать сборщик мусора).