Hadoop MultipleOutputFormat.generateFileNameForKeyValue со многими ключами

Я пытаюсь играть с MultipleOutputFormat.generateFileNameForKeyValue() .

Идея состоит в том, чтобы создать каталог для каждого из моих ключей.

Это код:

static class MyMultipleTextOutputFormat extends MultipleTextOutputFormat<Text, Text> {
    @Override
    protected String generateFileNameForKeyValue(Text key, Text value, String name) {
        arr = key.toString().split("_");
        return arr[0]+"/"+name;
    }

}

Этот код работает, только если выпущенных записей немного. Если я запускаю код против моего реального ввода, он просто висит на редукторе около 70%.

В чем может быть проблема - работа с небольшим количеством ключей, а не работа со многими.

0 ответов

Другие вопросы по тегам