Создание массива отложенных значений с помощью rxDataStep и mclapply

У меня есть xdf-файл с именем probe03Seq, в котором есть список событий.

Variable information: 
Var 1: cm_mac_address       55718 factor levels: 
Var 2: time, Type: POSIXct
Var 3: status       3 factor levels:
Var 4: duration_disc       10 factor levels:
Var 5: down_power_disc       10 factor levels: 
Var 6: down_snr_disc       10 factor levels:
Var 7: down_speed_disc       10 factor levels
Var 8: latency_disc       1 factor levels:
Var 9: up_power_disc       10 factor levels:
Var 10: up_speed_disc       10 factor levels:
Var 11: Sequence       34777 factor levels:

Затем я разбил этот большой xdf по столбцу cm_mac_address на множество маленьких xdf и отсортировал их по времени.

nocSplit <- rxSplit(inData = "probe03Seq.xdf",
                 outFilesBase = file.path(tempdir(), "MACAddress"),
                 splitByFactor = "cm_mac_address")

mclapply(nocSplit, FUN = function(xdf) {

rxSort(inData = xdf,
       outFile = xdf,
       sortByVars = "time",
       overwrite = TRUE)
})

Сейчас я пытаюсь выяснить, как создать новую переменную в этих небольших файлах xdf. Я хотел бы иметь возможность установить размер окна и иметь возможность создать массив предыдущих значений в столбце Sequence. так, например, если у меня есть наблюдение каждый час с размером окна 10 часов, я хотел бы видеть что-то вроде столбца SequenceList ниже.

window.size = 10 hrs

time Sequence SequenceList
1      6       NA
2      5       NA
3      7       NA
4      8       NA
5      4       NA
6      2       NA
7     10       NA
8      9       NA
9      4       NA
10     6       {6,5,7,8,4,2,10,9,4,6}
11     4       {5,7,8,4,2,10,9,4,6,4}
12     3       {7,8,4,2,10,9,4,6,4,3}
13     8       {8,4,2,10,9,4,6,4,3,8}
14     3       {4,2,10,9,4,6,4,3,8,3}
15     9       {2,10,9,4,6,4,3,8,3,9}
16     1       {10,9,4,6,4,3,8,3,9,1}
17     7       {9,4,6,4,3,8,3,9,1,7}
18     3       {4,6,4,3,8,3,9,1,7,3}
19     8       {6,4,3,8,3,9,1,7,3,8}
20     10      {4,3,8,3,9,1,7,3,8,10}

У Мэтта Паркера из команды Azure был хороший код для отставания на 1 строку ниже. https://gist.github.com/mmparker/8aca803eae5410875a21

lagVar <- function(dataList) { 

 if(.rxStartRow == 1) {
    dataList[[newName]] <- c(NA, dataList[[varToLag]][-.rxNumRows]) 
} else {
    dataList[[newName]] <- c(.rxGet("lastValue"),
                             dataList[[varToLag]][-.rxNumRows]) 
  }

.rxSet("lastValue", dataList[[varToLag]][.rxNumRows])

dataList

}


lapply(djiaSplit, FUN = function(xdf) {

rxDataStep(inData = xdf, 
           outFile = xdf,
           transformObjects = list(
               varToLag = "Open", 
               newName = "previousOpen"), 
           transformFunc = lagVar,
           # append = "cols",
           overwrite = TRUE)

})

Я думаю, что тот же самый подход обертывания rxDataStep с пользовательской функцией в mclapply может быть использован снова. У меня просто возникают проблемы с этой функцией. Любая помощь будет оценена! В настоящее время у меня есть этот код

Я выяснил функцию, которая работает с обычным фреймом данных,

set.seed(100)
mydf<-data.frame(time=(1:1000),event = sample(1:10,10000,replace=TRUE))

w=10
for (i in 1:nrow(mydf)){
  if(i<=w){
    mydf$eventList[i] = NA
    } 
 else {
      mydf$eventList[i] = list(mydf$event[c((i-w):i)])
      }
}

Однако, когда я изменяю это, чтобы работать с файлом xdf, я получаю ошибку.

lagVarWindow <- function(dataList) { 

for (i in 1:.rxNumRows){
if(i<=window.size){
 dataList[[newName]][i] = NA
} 
else {
 dataList[[newName]][i] = list(dataList[[varToLag]][c((i-window.size):i)])
}
}

dataList

}


mclapply(nocSplit, FUN = function(xdf) {

rxDataStep(inData = xdf, 
           outFile = xdf,
transformObjects = list(
window.size = 10,
              varToLag = "Sequence", 
              newName = "Sequence2"),
           transformFunc = lagVarWindow,
# append = "cols",
           overwrite = TRUE)

})

Error in doTryCatch(return(expr), name, parentenv, handler) : 
Found list tag in the middle of data: '<list=Sequence2&2190:1>

1 ответ

Решение

Я смог исправить ошибку, поместив ее в функцию paste()

lagVarWindow <- function(dataList) { 

for (i in 1:.rxNumRows){
  if(i<=window.size){
                    dataList[[newName]][i] = NA
                    } 
  else {
       dataList[[newName]][i] = paste(list(dataList[[varToLag]][c((i-window.size):i)]))
       }
}

dataList

}
Другие вопросы по тегам