Ошибка при использовании Revolution R для преобразования файла csv в xdf с использованием функции rxImport
Я пытаюсь взять CSV-файл из Cloudera и преобразовать его в XDF
Я пробовал следующее:
InputFile <- file.path("/user/...")
#create column classes for the data set
columnClasses <- c("character", "character", "character",
"character", "character", "character",
"character", "character", "character",
"character", "character", "numeric", "character"
)
names(columnClasses) <- paste("V", seq(1:13), sep = "")
##convert input csv file to rxTextData object
textData <- RxTextData(file = InputFile,
fileSystem = hdfsFS,
colClasses = columnClasses
)
##set chunk size
chunk.size <- 250000
##create output file location
newXdf <- RxXdfData("/user/...", fileSystem = hdfsFS)
rxImport(inData = InputFile,
outData = newXdf,
rowsPerRead = chunk.size,
overwrite = TRUE,
numRows = -1)
Когда я запускаю это, я получаю следующую ошибку:
Error in rxuHandleClusterJobTryFailure(retObject, hpcServerJob, autoCleanup, :
Error completing job on cluster:
Error in rxExecInDataHadoop(callInfo, matchCall) :
Data source does not have an hdfs file system type.
Примечание: я смотрел на textData
используя такие функции, как rxGetInfo
и выглядит нормально.
Любое понимание того, почему я получаю эту ошибку?
1 ответ
Обновление: опечатка в функции rxImport.
на самом деле побежал:
rxImport(inData = textData,
outData = newXdf,
rowsPerRead = chunk.size,
overwrite = TRUE,
numRows = -1)
и получил следующую ошибку:
Error in rxuHandleClusterJobTryFailure(retObject, hpcServerJob, autoCleanup, :
Error completing job on cluster:
Error in rxCall("Rx_ImportDataSource", params) :