Hive - случайное распределение записей по картографам

Question

Hive - случайное распределение записей по картографам

Я ищу что-то вроде DISTRIBUTE BY но для картографов вместо редукторов.

У меня есть задание на преобразование только для карты, которое я запускаю и использую

SET mapred.min.split.size=2100000;
SET mapred.max.split.size=2100000;

Для контроля количества назначенных картографов. Общий размер раздела составляет около 800 МБ, а заданию присваивается около 400 картографов, что, по-видимому, согласуется с размером разделения. Проблема, которую я имею, состоит в том, что ~390 картографов заканчивают в < 1m и показывают, что 0 записей были обработаны. Оставшиеся 10 картографов берут всю работу, и на это уходит несколько дней.

Есть ли способ, которым я могу заставить мапперов взять (приблизительно) равное количество записей, чтобы этого не произошло?

0

hive mappers

Источник

user5220073 30 авг '18 в 18:55

1 ответ

Другие вопросы по тегам hive mappers

user5220073 30 авг '18 в 20:40 2018-08-30 20:40 · Answer 1 · 2018-08-30 20:40

Исправлена. По всей видимости, таблица, запрашиваемая из только 10 файлов в HDFS, и, следовательно, можно использовать только 10 картографов.

0

Источник

user5220073 30 авг '18 в 20:40