Конфигурация размера входного разделения не работает должным образом для orcinputformat

Мы написали конвейер в MapReduce, где вводом является файл orc. Мы установили размер разделения следующим образом: mapreduce.input.fileinputformat.split.minsize=1073741824 mapreduce.input.fileinputformat.split.maxsize=1073741824

Приведенные ниже сценарии отображают количество запущенных карт и отсутствие файлов.

  1. Входная папка -30 файлов размером ~20К каждый
  2. Входная папка -1000 файлов каждый размером ~30К

Сценарий 1 № карт запущен 30 Сценарий 2 № карт запущен 1000

Но в идеале, исходя из конфигурации с разделенным размером, она должна быть меньше, чем на самом деле. Даже когда мы уменьшаем размер сплита, ни один из картостроителей не меняется. Похоже, конфигурация раздельного размера не оказывает никакого влияния, или мы что-то упускаем здесь, кто-то может пролить свет на то, что происходит в этом случае?

Примечание: мы используем Cloudera 5.5.4

0 ответов

Другие вопросы по тегам