MapReduce с CSV-файлом rmr2 - сбой сломанных столбцов в HDFS

У меня проблема с набором данных CSV в HDFS при выполнении MapReduce с rmr2.

С 1 файлом только MapReduce работает нормально и ошибки не обнаружено, но когда 2 или более набора данных в одной и той же папке, данные начинают ломаться и результаты начинают ломаться, как можно видеть ниже:

Скриншот ошибки

со строки 16 и далее ошибка начинается и продолжается до конца файла.

MapReduce используется:

calc = mapreduce(
 input="hdfs://127.0.0.1:8020/user/cloudera/flumeFinal",
  input.format=make.input.format(format="csv", sep = ",",
  col.names=col.names,stringsAsFactors=F),
    map=function(k,lines){
     k <- lines[2]
     return(keyval(k,1))
     },
    reduce= function(k,lines) {
     keyval(k,sum(lines))

Кто-нибудь сталкивался с подобной проблемой и может помочь с этим?

Спасибо бруно

0 ответов

Другие вопросы по тегам