Удалить -r-00000 на выходе редуктора
Я использую MultipleOutputs как это:
public int run(String[] args) throws Exception {
...
job1.setInputFormatClass(TextInputFormat.class);
job1.setOutputFormatClass(TextOutputFormat.class);
****MultipleOutputs.addNamedOutput(job1, "stopwords", TextOutputFormat.class, Text.class, IntWritable.class);****
...
}
На редуктор
public static class ReduceWordCount extends Reducer<Text, IntWritable, Text, IntWritable> {
private MultipleOutputs<Text, IntWritable> mos;
@Override
public void setup(Context context) {
mos = new MultipleOutputs<Text, IntWritable>(context);
}
@Override
public void reduce(Text word, Iterable<IntWritable> counts, Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable count : counts) {
sum += count.get();
}
if(sum>4000){
context.write(word, new IntWritable(sum));
mos.write("stopwords", new Text(word+", "), sum, "stopwords.csv");
}
}
protected void cleanup(Context context) throws IOException, InterruptedException {
mos.close();
}
}
Выходной файл, который я получаю, это stopwords.csv-r-00000. Мне нужно избавиться от -r-00000. Как я могу это сделать?
1 ответ
Для кого это может касаться, я нашел ответ здесь, где он переименовывает файл после завершения работы
FileSystem hdfs = FileSystem.get(getConf());
FileStatus fs[] = hdfs.listStatus(new Path(args[1]));
if (fs != null){
for (FileStatus aFile : fs) {
if (!aFile.isDir()) {
hdfs.rename(aFile.getPath(), new Path(aFile.getPath().toString()+".txt"));
}
}
}