Как настроить и перезагрузить кластер HDInsight, работающий в Azure?
В частности, я хочу изменить максимальное количество сопоставителей и максимальное число преобразователей для каждого узла в кластере HDInsight, работающем в Microsoft Azure.
Используя удаленный рабочий стол, я вошел в головной узел. Я отредактировал файл mapred-site.xml на головном узле и изменил значения mapred.tasktracker.map.tasks.maximum и mapred.tasktracker.reduce.tasks.maximum. Я попытался перезагрузить головной узел, но не смог перезагрузиться. Я использовал сценарии start-onebox.cmd и stop-onebox.cmd, чтобы попытаться запустить / остановить HDInsight.
Затем я запустил потоковое mapreduce, передав нужное количество редукторов в hadoop-streaming.jar, но количество редукторов все еще было ограничено предыдущим значением mapred.tasktracker.reduce.tasks.maximum. Большинство моих редукторов ожидали казни.
Нужно ли мне изменять файл mapred-site.xml на каждом узле? Есть ли простой способ изменить это, или мне нужен удаленный рабочий стол для каждого узла? Как перезагрузить или перезапустить кластер, чтобы использовать мои новые значения?
Спасибо
1 ответ
Я знаю, что прошло много времени с тех пор, как вопрос был опубликован, но я хотел бы публиковать сообщения для других пользователей, которые могут оказаться полезными.
Есть два способа изменить файлы конфигурации Hadoop (например, mapred-site.xml, hive-site.xml и т. Д.) В HDinsight.
Вариант № 1. Это самый простой способ - вы можете указать значения конфигурации hadoop для каждого задания, как показано в этом блоге.
Вариант №2. Вы можете настроить кластер HDinsight со значениями конфигурации hadoop во время подготовки или установки кластера, как показано в этом блоге
Изменение файла конфигурации вручную не поддерживается, и оно будет потеряно при повторном создании образа виртуальной машины Azure.