Как получить множественный выход в hadoop
Я новичок в Hadoop, и теперь мне нужно обработать входной файл. Я хочу обрабатывать каждую строку и вывод должен быть один файл для каждой строки.
Я занимаюсь серфингом в интернете и нашел MultipleOutputFormat и генерирую FileNameForKeyValue.
Но большинство людей пишут это с помощью класса JobConf. Поскольку я использую Hadoop 0.20.1, я думаю, что класс Job имеет место. И я не знаю, как использовать класс Job для генерации нескольких выходных файлов по ключу.
Кто-нибудь может мне помочь?
1 ответ
Плагин Eclipse в основном используется для отправки и мониторинга заданий, а также для взаимодействия с HDFS относительно реального кластера или кластера psuedo.
Если вы работаете в локальном режиме, то я не думаю, что плагин вам что-нибудь даст, поскольку ваша работа будет выполняться в одной JVM. Имея это в виду, я бы сказал, включить include самое последнее 1.x hadoop-core в classpath вашего проекта Eclipse.
В любом случае MultipleOutputFormat
не был перенесен в новый пакет mapreduce (ни в 1.1.2, ни в 2.0.4-alpha), поэтому вам нужно либо портировать его самостоятельно, либо найти другой способ (возможно, MultipleOutputs
- Страница Javadoc имеет некоторое использование при использовании MultipleOutputs)