Могу ли я установить вход Mapper как hashMap вместо входного файла

Я пытаюсь настроить задачу MapReduce, которая использует функцию параллельного сканирования от DynamodB.

По сути, я хочу, чтобы каждый класс Mapper принимал кортеж в качестве входного значения.

Каждый пример, который я видел до сих пор, устанавливает это:

FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));

Могу ли я установить вместо этого формат ввода для hashMap?

1 ответ

Я думаю, что вы хотите прочитать ваш файл как пару ключ-значение, а не как стандартный способ чтения inputSlipt(номер строки в качестве ключа и строка в качестве значения). Если это то, что вы спросили, то вы можете использовать KeyValueTextInputFormat, приведенное ниже описание можно найти на Hadoop: полное руководство

TextInputFormat’s keys, being simply the offset within the file, are not normally
very useful. It is common for each line in a file to be a key-value pair, 
separated by a delimiter such as a tab character. For example, this is the output   
produced by TextOutputFormat, Hadoop’s default OutputFormat. To interpret such 
files correctly, KeyValueTextInputFormat is appropriate.

You can specify the separator via the key.value.separator.in.input.line property. 
It is a tab character by default. Consider the following input file, 
where → represents a (horizontal) tab character:

line1→On the top of the Crumpetty Tree
line2→The Quangle Wangle sat,
line3→But his face you could not see,
line4→On account of his Beaver Hat.
Like in the TextInputFormat case, the input is in a single split comprising four
records, although this time the keys are the Text sequences before the tab in
each line:

(line1, On the top of the Crumpetty Tree)
(line2, The Quangle Wangle sat,)
(line3, But his face you could not see,)
(line4, On account of his Beaver Hat.)
Другие вопросы по тегам