Hadoop MultipleOutputFormat.generateFileNameForKeyValue со многими ключами
Я пытаюсь играть с MultipleOutputFormat.generateFileNameForKeyValue() .
Идея состоит в том, чтобы создать каталог для каждого из моих ключей.
Это код:
static class MyMultipleTextOutputFormat extends MultipleTextOutputFormat<Text, Text> {
@Override
protected String generateFileNameForKeyValue(Text key, Text value, String name) {
arr = key.toString().split("_");
return arr[0]+"/"+name;
}
}
Этот код работает, только если выпущенных записей немного. Если я запускаю код против моего реального ввода, он просто висит на редукторе около 70%.
В чем может быть проблема - работа с небольшим количеством ключей, а не работа со многими.