Как получить множественный выход в hadoop

Question

Как получить множественный выход в hadoop

Я новичок в Hadoop, и теперь мне нужно обработать входной файл. Я хочу обрабатывать каждую строку и вывод должен быть один файл для каждой строки.

Я занимаюсь серфингом в интернете и нашел MultipleOutputFormat и генерирую FileNameForKeyValue.

Но большинство людей пишут это с помощью класса JobConf. Поскольку я использую Hadoop 0.20.1, я думаю, что класс Job имеет место. И я не знаю, как использовать класс Job для генерации нескольких выходных файлов по ключу.

Кто-нибудь может мне помочь?

0

hadoop outputformat

Источник

user1702461 19 май '13 в 17:25

1 ответ

Решение

Другие вопросы по тегам hadoop outputformat

user1279787 20 май '13 в 02:16 2013-05-20 02:16 · Accepted Answer · 2013-05-20 02:16

Плагин Eclipse в основном используется для отправки и мониторинга заданий, а также для взаимодействия с HDFS относительно реального кластера или кластера psuedo.

Если вы работаете в локальном режиме, то я не думаю, что плагин вам что-нибудь даст, поскольку ваша работа будет выполняться в одной JVM. Имея это в виду, я бы сказал, включить include самое последнее 1.x hadoop-core в classpath вашего проекта Eclipse.

В любом случае MultipleOutputFormat не был перенесен в новый пакет mapreduce (ни в 1.1.2, ни в 2.0.4-alpha), поэтому вам нужно либо портировать его самостоятельно, либо найти другой способ (возможно, MultipleOutputs - Страница Javadoc имеет некоторое использование при использовании MultipleOutputs)