Ошибка при использовании Revolution R для преобразования файла csv в xdf с использованием функции rxImport

Я пытаюсь взять CSV-файл из Cloudera и преобразовать его в XDF

Я пробовал следующее:

InputFile <- file.path("/user/...")

#create column classes for the data set
columnClasses <- c("character", "character", "character", 
                   "character", "character", "character", 
                   "character", "character", "character", 
                   "character", "character", "numeric", "character"
                   )

names(columnClasses) <- paste("V", seq(1:13), sep = "")

##convert input csv file to rxTextData object
textData <- RxTextData(file = InputFile,
                         fileSystem = hdfsFS,
                         colClasses = columnClasses
                         )

##set chunk size
chunk.size <- 250000

##create output file location
newXdf <- RxXdfData("/user/...", fileSystem = hdfsFS)

rxImport(inData = InputFile,
     outData = newXdf,
     rowsPerRead = chunk.size,
     overwrite = TRUE,
     numRows = -1)

Когда я запускаю это, я получаю следующую ошибку:

Error in rxuHandleClusterJobTryFailure(retObject, hpcServerJob, autoCleanup,  : 
  Error completing job on cluster:
Error in rxExecInDataHadoop(callInfo, matchCall) : 
  Data source does not have an hdfs file system type.

Примечание: я смотрел на textData используя такие функции, как rxGetInfo и выглядит нормально.

Любое понимание того, почему я получаю эту ошибку?

1 ответ

Обновление: опечатка в функции rxImport.

на самом деле побежал:

rxImport(inData = textData,
     outData = newXdf,
     rowsPerRead = chunk.size,
     overwrite = TRUE,
     numRows = -1)

и получил следующую ошибку:

Error in rxuHandleClusterJobTryFailure(retObject, hpcServerJob, autoCleanup,  : 
  Error completing job on cluster:
Error in rxCall("Rx_ImportDataSource", params) :
Другие вопросы по тегам