Ошибка начальной загрузки Cloudera Cluster Deployment на EC2 с использованием Director
Я успешно развернул Cloudera Director и Cloudera Manager на EC2. Я могу получить доступ к экземплярам директора и менеджера из браузера и могу сделать ssh для этих экземпляров. Сервер и агент Cloudera Manager работают нормально и проверили его, выполнив следующие команды.
Следующий шаг - я хочу развернуть кластер. Однако его провал, и я получаю Bootstrap failed error
, Я проверил файл application.log на директоре и обнаружил исключение как - вызвано:
java.net.ConnectException: ConnectException, вызывающее http://:7180/api/v6/commands/158: соединение отклонено (соединение отклонено)
После проверки состояния служб я обнаружил, что во время развертывания кластера каким-то образом останавливается служба cloudera-scm-manager (cloudera-scm-server). Однако перед развертыванием кластера я убедился, что служба cloudera-scm-server запущена и работает.
Я пытался развернуть кластер несколько раз и использовать как t2 small, так и m4 large instance. Я получаю то же исключение.
После получения ошибки, если я перезапускаю cloudera-scm-service, она запускается и работает нормально. Но во время развертывания кластера он останавливается автоматически, что, как я полагаю, приводит к сбою развертывания кластера. Не уверен, как и почему?
Есть идеи, в чем может быть проблема? Может кто-нибудь предоставить какие-либо указатели / помощь для решения этой проблемы?
Детали версии используются для развертывания следующим образом:
- Версия Cloudera Director - 2.4.1
- Версия Cloudera Manager - 5.11.1
- Экземпляр EC2 - пробовал с типом экземпляра t2 small и m4 large.
- Экземпляр EC2 OS - RHEL 6.7, 64-битный
- Конфигурация кластера выбрана - 1 мастер,1 рабочий,1 шлюз
- Выбранные кластерные сервисы - Core Hadoop с Spark на YARN (сюда входят следующие сервисы - HDFS, Hive, Hue, Oozie, Spark на YARN, YARN, ZooKeeper)
Любая помощь / ввод / указатели, чтобы решить эту проблему, с благодарностью.
Большое спасибо заранее.
-picku
1 ответ
Picku
Мое первое предположение на основании ваших симптомов состоит в том, что ваш экземпляр CM слишком мал. В Linux есть OOM Killer, который завершает произвольные процессы, если для запуска ОС недостаточно памяти. Это, вероятно, причина того, что вы не видите, что cloudera-scm-service работает. Я полагаю, что вы можете заглянуть в / var / log / messages, чтобы найти "дымящийся пистолет", который подразумевает убийцу ООМ.
Обратитесь к справочной архитектуре Cloudera Enterprise для развертываний AWS за рекомендациями по типам экземпляров. http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_aws.pdf
Удачи! Дэвид