Как настроить и перезагрузить кластер HDInsight, работающий в Azure?

В частности, я хочу изменить максимальное количество сопоставителей и максимальное число преобразователей для каждого узла в кластере HDInsight, работающем в Microsoft Azure.

Используя удаленный рабочий стол, я вошел в головной узел. Я отредактировал файл mapred-site.xml на головном узле и изменил значения mapred.tasktracker.map.tasks.maximum и mapred.tasktracker.reduce.tasks.maximum. Я попытался перезагрузить головной узел, но не смог перезагрузиться. Я использовал сценарии start-onebox.cmd и stop-onebox.cmd, чтобы попытаться запустить / остановить HDInsight.

Затем я запустил потоковое mapreduce, передав нужное количество редукторов в hadoop-streaming.jar, но количество редукторов все еще было ограничено предыдущим значением mapred.tasktracker.reduce.tasks.maximum. Большинство моих редукторов ожидали казни.

Нужно ли мне изменять файл mapred-site.xml на каждом узле? Есть ли простой способ изменить это, или мне нужен удаленный рабочий стол для каждого узла? Как перезагрузить или перезапустить кластер, чтобы использовать мои новые значения?

Спасибо

1 ответ

Я знаю, что прошло много времени с тех пор, как вопрос был опубликован, но я хотел бы публиковать сообщения для других пользователей, которые могут оказаться полезными.

Есть два способа изменить файлы конфигурации Hadoop (например, mapred-site.xml, hive-site.xml и т. Д.) В HDinsight.

Вариант № 1. Это самый простой способ - вы можете указать значения конфигурации hadoop для каждого задания, как показано в этом блоге.

Вариант №2. Вы можете настроить кластер HDinsight со значениями конфигурации hadoop во время подготовки или установки кластера, как показано в этом блоге

Изменение файла конфигурации вручную не поддерживается, и оно будет потеряно при повторном создании образа виртуальной машины Azure.

Другие вопросы по тегам