Кластер HDP с RAID?
Каков ваш опыт работы с RAID1 на кластере HDP?
У меня на уме два варианта:
- Настройте RAID 1 для главного узла и узлов зоопарка и не используйте RAID вообще на подчиненных узлах, таких как брокеры kafka, серверы регионов hbase и менеджеры узлов пряжи.
Даже если я потеряю один подчиненный узел, у меня будет две другие реплики. По моему мнению, RAID только замедлит мой кластер.
- Несмотря ни на что, настройте все, используя RAID 1.
Что вы думаете об этом? Какой у вас опыт работы с HDP и RAID? Что вы думаете об использовании RAID 0 для подчиненных узлов?
1 ответ
Я бы не рекомендовал использовать RAID на хостах Hadoop. Есть одно предостережение: если вы работаете с такими сервисами, как Oozie и Hast metastore, которые используют реляционную БД за кулисами, рейд может иметь смысл на хосте БД.
На главном узле, если у вас есть Namenode, zookeeper и т. Д. - обычно избыточность встроена в сервис. Для наменодов все данные хранятся на обоих наменодах. Для Zookeeper, если вы потеряете один узел, то другие два узла будут иметь всю информацию.
Zookeeper любит быстрые диски - в идеале, посвятите полный диск zookeeper. Если у вас есть namenode HA, назначьте каталог edits namenode и каждому узлу журнала также выделенный диск.
Для подчиненных узлов датода записывает данные на всех дисках, в любом случае эффективно распределяя данные. Каждая "запись" имеет максимальный размер блока HDFS, поэтому если вы пишете большой файл, вы можете получить 128 МБ на диске 1, затем следующие 128 МБ на диске 2 и т. Д.