MapReduce с CSV-файлом rmr2 - сбой сломанных столбцов в HDFS
У меня проблема с набором данных CSV в HDFS при выполнении MapReduce с rmr2.
С 1 файлом только MapReduce работает нормально и ошибки не обнаружено, но когда 2 или более набора данных в одной и той же папке, данные начинают ломаться и результаты начинают ломаться, как можно видеть ниже:
со строки 16 и далее ошибка начинается и продолжается до конца файла.
MapReduce используется:
calc = mapreduce(
input="hdfs://127.0.0.1:8020/user/cloudera/flumeFinal",
input.format=make.input.format(format="csv", sep = ",",
col.names=col.names,stringsAsFactors=F),
map=function(k,lines){
k <- lines[2]
return(keyval(k,1))
},
reduce= function(k,lines) {
keyval(k,sum(lines))
Кто-нибудь сталкивался с подобной проблемой и может помочь с этим?
Спасибо бруно