Использование parLapply и clusterExport внутри функции

Я задал связанный вопрос здесь, и ответ сработал хорошо: используя parLapply параллельного интерфейса: невозможно получить доступ к переменным внутри параллельного кода

Проблема в том, что когда я пытаюсь использовать ответ внутри функции, он не будет работать, так как я думаю, что это имеет отношение к среде по умолчанию clusterExport, Я прочитал виньетку и посмотрел файл справки, но подхожу к этому с очень ограниченной базой знаний. То, как я использовал parLapply Я ожидал, что он будет вести себя подобно lapply но это не похоже на.

Вот моя попытка:

par.test <- function(text.var, gc.rate=10){ 
    ntv <- length(text.var)
    require(parallel)
    pos <-  function(i) {
        paste(sapply(strsplit(tolower(i), " "), nchar), collapse=" | ")
    }
    cl <- makeCluster(mc <- getOption("cl.cores", 4))
    clusterExport(cl=cl, varlist=c("text.var", "ntv", "gc.rate", "pos"))
    parLapply(cl, seq_len(ntv), function(i) {
            x <- pos(text.var[i])
            if (i%%gc.rate==0) gc()
            return(x)
        }
    )
}

par.test(rep("I like cake and ice cream so much!", 20))

#gives this error message
> par.test(rep("I like cake and ice cream so much!", 20))
Error in get(name, envir = envir) : object 'text.var' not found

2 ответа

Решение

По умолчанию clusterExport смотрит в .GlobalEnv для объектов для экспорта, которые названы в varlist, Если ваши объекты не находятся в .GlobalEnv, ты должен сказать clusterExport в какой среде он может найти эти объекты.

Вы можете изменить свой clusterExport к следующему (что я не проверял, но вы сказали, работает в комментариях)

clusterExport(cl=cl, varlist=c("text.var", "ntv", "gc.rate", "pos"), envir=environment())

Таким образом, он будет искать в среде функции объекты для экспорта.

Другое решение - включить дополнительные переменные в качестве аргументов вашей функции; parLapply также экспортирует их. Если "text.var" - большие данные, то стоит сделать это аргументом, к которому применяется, а не индексом, потому что тогда экспортируется только часть text.var, относящаяся к каждому работнику, а не весь объект каждому работнику.

par.test <- function(text.var, gc.rate=10){ 
    require(parallel)
    pos <-  function(i) {
        paste(sapply(strsplit(tolower(i), " "), nchar), collapse=" | ")
    }
    cl <- makeCluster(mc <- getOption("cl.cores", 4))
    parLapply(cl, text.var, function(text.vari, gc.rate, pos) {
        x <- pos(text.vari)
        if (i%%gc.rate==0) gc()
        x
    }, gc.rate, pos)
}

Это также концептуально приятно. (Редко необходимо явно вызывать сборщик мусора).

Другие вопросы по тегам