Как получить множественный выход в hadoop

Я новичок в Hadoop, и теперь мне нужно обработать входной файл. Я хочу обрабатывать каждую строку и вывод должен быть один файл для каждой строки.

Я занимаюсь серфингом в интернете и нашел MultipleOutputFormat и генерирую FileNameForKeyValue.

Но большинство людей пишут это с помощью класса JobConf. Поскольку я использую Hadoop 0.20.1, я думаю, что класс Job имеет место. И я не знаю, как использовать класс Job для генерации нескольких выходных файлов по ключу.

Кто-нибудь может мне помочь?

1 ответ

Решение

Плагин Eclipse в основном используется для отправки и мониторинга заданий, а также для взаимодействия с HDFS относительно реального кластера или кластера psuedo.

Если вы работаете в локальном режиме, то я не думаю, что плагин вам что-нибудь даст, поскольку ваша работа будет выполняться в одной JVM. Имея это в виду, я бы сказал, включить include самое последнее 1.x hadoop-core в classpath вашего проекта Eclipse.

В любом случае MultipleOutputFormat не был перенесен в новый пакет mapreduce (ни в 1.1.2, ни в 2.0.4-alpha), поэтому вам нужно либо портировать его самостоятельно, либо найти другой способ (возможно, MultipleOutputs - Страница Javadoc имеет некоторое использование при использовании MultipleOutputs)

Другие вопросы по тегам