Вывод из эксплуатации нескольких узлов данных Hadoop параллельно

Question

Вывод из эксплуатации нескольких узлов данных Hadoop параллельно

Я заменяю несколько машин в своем кластере Hadoop CDH 5.7. Я начал с добавления нескольких новых машин и вывода из эксплуатации того же количества существующих датододов.

Я заметил, что блоки помечаются как недостаточно реплицированные при выводе узла из эксплуатации.

Означает ли это, что я подвержен риску при выводе из эксплуатации нескольких узлов? Могу ли я списать все узлы параллельно? Есть ли лучший способ заменить все машины?

Спасибо!

0

hadoop cloudera cloudera-cdh

Источник

user1406525 16 дек '16 в 23:45

1 ответ

Решение

Другие вопросы по тегам hadoop cloudera cloudera-cdh

user2142994 17 дек '16 в 18:26 2016-12-17 18:26 · Accepted Answer · 2016-12-17 18:26

Очевидно, что когда узел отключен (или удален), данные реплицируются недостаточно. Когда вы добавляете новый узел и перебалансируете, это будет автоматически исправлено.

Что на самом деле происходит?

Допустим, коэффициент репликации в вашем кластере равен 3. Когда узел выведен из эксплуатации, все данные, хранящиеся на нем, исчезли, а коэффициент репликации этих данных теперь равен 2 (и, следовательно, недостаточно реплицирован). Теперь, когда вы добавляете новый узел и повторно балансируете, пропущенная копия создается снова, что приводит к восстановлению репликации по умолчанию.

Я в опасности?

Нет, если вы делаете это один за другим. То есть заменить узел и перебалансировать кластер. Повторение. (Я думаю, что это единственный способ!)

Если вы просто удалите несколько узлов, есть большая вероятность потери данных, поскольку вы можете потерять все репликации некоторых данных (которые находились на этих узлах).

Не списывайте сразу несколько узлов!