Ошибка начальной загрузки Cloudera Cluster Deployment на EC2 с использованием Director

Я успешно развернул Cloudera Director и Cloudera Manager на EC2. Я могу получить доступ к экземплярам директора и менеджера из браузера и могу сделать ssh для этих экземпляров. Сервер и агент Cloudera Manager работают нормально и проверили его, выполнив следующие команды.

Следующий шаг - я хочу развернуть кластер. Однако его провал, и я получаю Bootstrap failed error, Я проверил файл application.log на директоре и обнаружил исключение как - вызвано:

java.net.ConnectException: ConnectException, вызывающее http://:7180/api/v6/commands/158: соединение отклонено (соединение отклонено)

После проверки состояния служб я обнаружил, что во время развертывания кластера каким-то образом останавливается служба cloudera-scm-manager (cloudera-scm-server). Однако перед развертыванием кластера я убедился, что служба cloudera-scm-server запущена и работает.

Я пытался развернуть кластер несколько раз и использовать как t2 small, так и m4 large instance. Я получаю то же исключение.

После получения ошибки, если я перезапускаю cloudera-scm-service, она запускается и работает нормально. Но во время развертывания кластера он останавливается автоматически, что, как я полагаю, приводит к сбою развертывания кластера. Не уверен, как и почему?

Есть идеи, в чем может быть проблема? Может кто-нибудь предоставить какие-либо указатели / помощь для решения этой проблемы?

Детали версии используются для развертывания следующим образом:

  • Версия Cloudera Director - 2.4.1
  • Версия Cloudera Manager - 5.11.1
  • Экземпляр EC2 - пробовал с типом экземпляра t2 small и m4 large.
  • Экземпляр EC2 OS - RHEL 6.7, 64-битный
  • Конфигурация кластера выбрана - 1 мастер,1 рабочий,1 шлюз
  • Выбранные кластерные сервисы - Core Hadoop с Spark на YARN (сюда входят следующие сервисы - HDFS, Hive, Hue, Oozie, Spark на YARN, YARN, ZooKeeper)

Любая помощь / ввод / указатели, чтобы решить эту проблему, с благодарностью.

Большое спасибо заранее.

-picku

1 ответ

Решение

Picku

Мое первое предположение на основании ваших симптомов состоит в том, что ваш экземпляр CM слишком мал. В Linux есть OOM Killer, который завершает произвольные процессы, если для запуска ОС недостаточно памяти. Это, вероятно, причина того, что вы не видите, что cloudera-scm-service работает. Я полагаю, что вы можете заглянуть в / var / log / messages, чтобы найти "дымящийся пистолет", который подразумевает убийцу ООМ.

Обратитесь к справочной архитектуре Cloudera Enterprise для развертываний AWS за рекомендациями по типам экземпляров. http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_aws.pdf

Удачи! Дэвид

Другие вопросы по тегам