Масштабирование Oozie Map Сокращение заданий: сокращает ли разбиение на меньшие задания общее время выполнения и использование памяти?
У меня есть рабочий процесс Oozie, который выполняет задание Map-Reduction в определенной очереди в кластере.
Я должен добавить больше входных источников / клиентов к этой работе, так что эта работа будет обрабатывать в n раз больше данных, чем сегодня.
Мой вопрос: если вместо одной большой работы обрабатывать все данные, если я разделю ее на несколько работ, по одной на источник, уменьшу ли я общее количество времени, которое потребуется для выполнения работы?
Я знаю, что Mapreduce в любом случае разбивает работу на более мелкие и распределяет их по сетке, поэтому одна большая работа должна быть такой же, как несколько небольших работ.
Кроме того, распределение емкости в очереди выполняется на основе "на пользователя" [1], поэтому независимо от того, сколько заданий отправлено одному пользователю, выделенная пользователю емкость будет одинаковой. Или мне чего-то не хватает?
Так будет ли моя работа работать быстрее, если она будет разбита на небольшие работы?
Благодарю.
[1] https://hadoop.apache.org/docs/r1.2.1/capacity_scheduler.html