Как установить количество имен, узлов данных, сопоставителей и редукторов в Hadoop

Я хочу знать, как установить количество

NameNodes

узлы DataNode

Mappers

Переходники

в коде / конфигурации Hadoop.

1 ответ

Количество Namenode и DataNode определяется требованиями вашего бизнеса. Вы не устанавливаете их программированием.

Если вам нужна масштабируемость, вы должны изучить концепции федерации HDFS.

Обратитесь к этой странице документации для получения более подробной информации о Федерации.

Для горизонтального масштабирования службы имен федерация использует несколько независимых Namenodes/namespaces. Наменоды являются федеративными; Наменоды независимы и не требуют координации друг с другом. Датаноды используются в качестве общего хранилища для блоков всеми Наменодами.

введите описание изображения здесь

Количество картографов определяется входными разбиениями.

Вы можете установить количество редукторов программно, но фреймворк не обязан подчиняться вашей рекомендации.

Поэтому лучше оставить решение Hadoop принять решение о количестве картографов и редукторов.

Посмотрите на этот связанный вопрос SE:

Как hadoop решает, сколько узлов будет отображать и сокращать задачи

РЕДАКТИРОВАТЬ:

Размер кластера Hadoop: 1. Определите требования к данным исходя из потребностей вашего бизнеса. 2. Определите фактор репликации для ваших данных. 3. Рассчитайте коэффициент раскрытия данных в ближайшие годы. 4. Получив вышеуказанные данные, вы сможете продумать идеальный размер кластера и требования к оборудованию для Namenode. и Датаноде.

Обратитесь к этой статье Cloudera для более подробной информации.

Правильный уровень параллелизма для карт, кажется, составляет около 10-100 карт на узел "узел здесь означает NameNode или DataNode?

это Датанода.

когда говорят о Mappers, некоторые говорят, что такое же число, что и сплиты, другие говорят, что такое же количество блоков, а другие говорят, что это определяется структурой

это было решено структурой hadoop в зависимости от количества входных разбиений.

Посмотрите на связанный вопрос SE:

Как Hadoop выполняет разбиение ввода?

Другие вопросы по тегам