Масштабирование Oozie Map Сокращение заданий: сокращает ли разбиение на меньшие задания общее время выполнения и использование памяти?

У меня есть рабочий процесс Oozie, который выполняет задание Map-Reduction в определенной очереди в кластере.

Я должен добавить больше входных источников / клиентов к этой работе, так что эта работа будет обрабатывать в n раз больше данных, чем сегодня.

Мой вопрос: если вместо одной большой работы обрабатывать все данные, если я разделю ее на несколько работ, по одной на источник, уменьшу ли я общее количество времени, которое потребуется для выполнения работы?

Я знаю, что Mapreduce в любом случае разбивает работу на более мелкие и распределяет их по сетке, поэтому одна большая работа должна быть такой же, как несколько небольших работ.

Кроме того, распределение емкости в очереди выполняется на основе "на пользователя" [1], поэтому независимо от того, сколько заданий отправлено одному пользователю, выделенная пользователю емкость будет одинаковой. Или мне чего-то не хватает?

Так будет ли моя работа работать быстрее, если она будет разбита на небольшие работы?

Благодарю.

[1] https://hadoop.apache.org/docs/r1.2.1/capacity_scheduler.html

0 ответов

Другие вопросы по тегам