Установка количества редукторов для приложения Amazon EMR

Question

Установка количества редукторов для приложения Amazon EMR

Я пытаюсь запустить пример WordCount под Amazon EMR.

-1- Сначала я создаю кластер с помощью следующей команды:

./elastic-mapreduce --create --name "MyTest" --alive

Это создает кластер с одним экземпляром и возвращает jobID, скажем, j-12NWUOKABCDEF

-2- Во-вторых, я запускаю работу, используя следующую команду:

./elastic-mapreduce --jobflow j-12NWUOKABCDEF --jar s3n: //mybucket/jar-files/wordcount.jar --основной класс abc.WordCount --arg s3n: // mybucket / input-data /

--arg s3n: // mybucket / output-data /

--arg -Dmapred.reduce.tasks = 3

Мой класс WordCount принадлежит пакету abc.

Это выполняется без каких-либо проблем, но я получаю только один редуктор. Это означает, что параметр "mapred.reduce.tasks=3" игнорируется.

Есть ли способ указать количество редукторов, которые я хочу использовать в моем приложении?

Спасибо, Нирадж.

3

hadoop amazon-emr reducers mappers

Источник

user2262938 02 сен '13 в 22:28

3 ответа

Другие вопросы по тегам hadoop amazon-emr reducers mappers

user620554 19 мар '14 в 19:41 2014-03-19 19:41 · Answer 1 · 2014-03-19 19:41

"-D" и "mapred.reduce.tasks=3" должны быть отдельные аргументы.

2

Источник

user620554 19 мар '14 в 19:41

user1172559 18 окт '13 в 17:12 2013-10-18 17:12 · Answer 2 · 2013-10-18 17:12

Попробуйте запустить кластер EMR, установив в свойствах Reduser и Mapper опцию --bootstrap-action

--bootstrap-action s3://elasticmapreduce/bootstrap-actions/configure-daemons --args "-m,mapred.map.tasks=6,-m,mapred.reduce.tasks=3"

0

Источник

user1172559 18 окт '13 в 17:12

user318870 12 янв '15 в 20:44 2015-01-12 20:44 · Answer 3 · 2015-01-12 20:44

Вы можете использовать встроенную опцию потокового Jar -numReduceTasks, Например, с помощью инструмента Ruby EMR CLI:

elastic-mapreduce --create --enable-debugging \
  --ami-version "3.3.1" \
  --log-uri s3n://someBucket/logs \
  --name "someJob" \
  --num-instances 6 \
  --master-instance-type "m3.xlarge"  --slave-instance-type "c3.8xlarge" \
  --bootstrap-action s3://elasticmapreduce/bootstrap-actions/install-ganglia \
  --stream \
    --arg "-files" \
    --arg "s3://someBucket/some_job.py,s3://someBucket/some_file.txt" \
    --mapper "python27 some_job.py some_file.txt" \
    --reducer cat \
    --args "-numReduceTasks,8" \
    --input s3://someBucket/myInput \
    --output s3://someBucket/myOutput \
    --step-name "main processing"