Hive - случайное распределение записей по картографам
Я ищу что-то вроде DISTRIBUTE BY
но для картографов вместо редукторов.
У меня есть задание на преобразование только для карты, которое я запускаю и использую
SET mapred.min.split.size=2100000;
SET mapred.max.split.size=2100000;
Для контроля количества назначенных картографов. Общий размер раздела составляет около 800 МБ, а заданию присваивается около 400 картографов, что, по-видимому, согласуется с размером разделения. Проблема, которую я имею, состоит в том, что ~390 картографов заканчивают в < 1m и показывают, что 0 записей были обработаны. Оставшиеся 10 картографов берут всю работу, и на это уходит несколько дней.
Есть ли способ, которым я могу заставить мапперов взять (приблизительно) равное количество записей, чтобы этого не произошло?
1 ответ
Исправлена. По всей видимости, таблица, запрашиваемая из только 10 файлов в HDFS, и, следовательно, можно использовать только 10 картографов.