Создать уникальный идентификатор в MapReduce

Question

Создать уникальный идентификатор в MapReduce

Я сравниваю два файла A & B и извлекаю столбцы из A, которых нет в B, и добавляю их в B. Когда новая запись добавляется в B, ей должен быть присвоен уникальный идентификатор. Я ищу логику, где я могу получить общее количество от B, который сейчас является максимальным идентификатором. Затем передайте максимум всем редукторам. Но проблема в том, что несколько редукторов будут обрабатываться параллельно. Есть ли способ заставить редуктор назначать инкрементный идентификатор синхронно со всеми другими редукторами на основе максимального значения из B?

Логика для сравнения А и Б:

1. Присвойте номер 2 записи из A

Присвойте номер "1" записям из B
Суммируйте значение в редукторе. Если сумма%2 равна 0, то запись не существует в B. Следовательно, добавьте ее в B с уникальным идентификатором.

1

hadoop mapreduce hadoop2 hadoop-partitioning

Источник

user2316771 03 дек '18 в 21:12

0 ответов

Другие вопросы по тегам hadoop mapreduce hadoop2 hadoop-partitioning