Наменоде время отработки отказа

Namenode HA (NFS, QJM) доступен в hadoop 2.x (HDFS-1623). Это обеспечивает быстрое аварийное переключение для Namenode, но я не могу найти описания того, сколько времени требуется для восстановления после сбоя. Кто-нибудь может мне сказать?


Спасибо за ваш ответ. На самом деле, я хочу знать время между преобразованием двух узлов (активный наменод и резервный наменод). Можете ли вы сказать мне, как долго?

4 ответа

Вот несколько квалифицированных примеров аварийного переключения с резервным NameNode:

Кластер из 60 узлов с 6 миллионами блоков с использованием 300 ТБ необработанного хранилища и 100 КБ файлов: 30 секунд. Следовательно, общее время переключения составляет 1-3 минуты.

Кластер из 200 узлов с 20 миллионами блоков, занимающий 1 ГБ сырой памяти и 1 миллион файлов: 110 секунд. Следовательно, общее время отработки отказа составляет от 2,5 до 4,5 минут.

Для малых и средних кластеров холодное переключение происходит всего на 30–120 секунд медленнее.

От: http://hortonworks.com/blog/ha-namenode-for-hdfs-with-hadoop-1-0-part-1/

Из Hadoop: Полное руководство, я считаю, что это легко понять и довольно просто.
Отказоустойчивость и ограждение

Переход от активного наменода к режиму ожидания управляется новым объектом в системе, называемым контроллером отработки отказа. Отказоустойчивые контроллеры являются подключаемыми, но первая реализация использует ZooKeeper, чтобы гарантировать, что активен только один namenode. Каждый namenode запускает облегченный процесс контроллера отработки отказа, задача которого состоит в том, чтобы контролировать свой namenode на предмет сбоев (используя простой механизм биения) и запускать отработку отказа в случае сбоя namenode.

Отказоустойчивость также может быть инициирована вручную администратором, например, в случае планового технического обслуживания. Это известно как постепенное переключение при сбое, поскольку отказоустойчивый контроллер организует упорядоченный переход для обоих узлов для переключения ролей.

Однако в случае неосторожного переключения при отказе невозможно быть уверенным, что отказавший наменод прекратил работу. Например, медленная сеть или сетевой раздел могут инициировать переход при сбое, даже если ранее активный namenode все еще работает и считает, что он все еще активный namenode. Реализация HA идет на многое, чтобы гарантировать, что ранее активный наменод не мог нанести какой-либо ущерб и вызвать повреждение - метод, известный как фехтование. В системе используется ряд механизмов ограждения, в том числе уничтожение процесса namenode, аннулирование его доступа к каталогу общего хранилища (как правило, с помощью специфической для поставщика команды NFS) и отключение сетевого порта с помощью команды удаленного управления. В крайнем случае, ранее активный наменод может быть огражден с помощью техники, довольно графически известной как STONITH, или "выстрелить в другой узел в голове", который использует специальный блок распределения питания для принудительного выключения хост-машины.,

Отработка отказа клиента прозрачно обрабатывается клиентской библиотекой. Простейшая реализация использует конфигурацию на стороне клиента для управления отработкой отказа. URI HDFS использует логическое имя хоста, которое сопоставлено с парой адресов namenode (в файле конфигурации), и клиентская библиотека пробует каждый адрес namenode, пока операция не завершится успешно.

Надеюсь, поможет!

  • Быстрое переключение означает не восстановление, а переключение на другой наменоде
  • Наменоде настроен с несколькими наменодами
  • Если какой-либо один наменоде станет неудачным, тогда другой наменоде станет активным.
  • Если сбой снова начался, значит, он будет в режиме ожидания.
  • Когда вы используете HA, несколько кластеров namenode будут работать, но узел журнала будет писать только на один узел имени одновременно. Таким образом, один узел имени будет в активном состоянии, а другой - в режиме ожидания.

  • В случае сбоя одного наменода резервный узел переходит в активное состояние. Это называется восстановление после сбоя.

Другие вопросы по тегам