Службы Cask CDAP запущены, но не работают во время установки

После просмотра документации по установке CDAP в системе MapR (v6.0) и запуску служб cdap, я обнаружил, что некоторые службы CDAP не запускаются после запуска ( https://docs.cask.co/cdap/current/en/admin-manual/installation/mapr.html), несмотря на то, что цикл запуска служб не показывает никаких ошибок. Вывод после запуска сервисов и проверки их статуса показан ниже:

[root@mapr007 conf]# for i in `ls /etc/init.d/ | grep cdap` ; do sudo service $i start ; done
/usr/bin/id: cannot find name for group ID 504
Wed Nov 21 16:03:01 HST 2018 Starting CDAP Auth Server service on mapr007.org.local


/usr/bin/id: cannot find name for group ID 504
Wed Nov 21 16:03:04 HST 2018 Starting CDAP Kafka Server service on mapr007.org.local


/usr/bin/id: cannot find name for group ID 504
Wed Nov 21 16:03:07 HST 2018 Starting CDAP Master service on mapr007.org.local


Warning: Unable to determine $DRILL_HOME
Wed Nov 21 16:03:48 HST 2018 Ensuring required HBase coprocessors are on HDFS
Wed Nov 21 16:04:00 HST 2018 Running CDAP Master startup checks -- this may take a few minutes
/usr/bin/id: cannot find name for group ID 504
Wed Nov 21 16:04:15 HST 2018 Starting CDAP Router service on mapr007.org.local


/usr/bin/id: cannot find name for group ID 504
Wed Nov 21 16:04:17 HST 2018 Starting CDAP UI service on mapr007.org.local



[root@mapr007 conf]# for i in `ls /etc/init.d/ | grep cdap` ; do sudo service $i status ; done
/usr/bin/id: cannot find name for group ID 504
PID file /var/cdap/run/auth-server-cdap.pid exists, but process 12126 does not appear to be running
/usr/bin/id: cannot find name for group ID 504
CDAP Kafka Server running as PID 12653
/usr/bin/id: cannot find name for group ID 504
PID file /var/cdap/run/master-cdap.pid exists, but process 15789 does not appear to be running
/usr/bin/id: cannot find name for group ID 504
CDAP Router running as PID 16184
/usr/bin/id: cannot find name for group ID 504
CDAP UI running as PID 16308

Обратите внимание, что в то время как есть ошибка "Невозможно определить $DRILL_HOME", я не думаю, что это должно быть большой проблемой, так как я добавил и установил explore.enabled значение в cdap-site.xml должно быть ложным. Глядя на cdap-site.xml, порт веб-интерфейса, кажется, установлен по умолчанию 11011 и все же не может его увидеть (если только проверить, будет ли пользовательский интерфейс сообщать мне больше о любых ошибках), несмотря на то, что он сообщает как работает.

Проверка информации о PID, просмотр

# looking at the process that report to not be running
[root@mapr007 conf.dist]# ps -p 12126
  PID TTY          TIME CMD
[root@mapr007 conf.dist]# ps -p 15789
  PID TTY          TIME CMD

# looking at the rest of the processes
[root@mapr007 conf.dist]# ps -p 12653
  PID TTY          TIME CMD
12653 ?        00:08:12 java
[root@mapr007 conf.dist]# ps -p 16184
  PID TTY          TIME CMD
16184 ?        00:03:02 java
[root@mapr007 conf.dist]# ps -p 16308
  PID TTY          TIME CMD
16308 ?        00:00:01 node

Также проверил, если по умолчанию security.auth.server.bind.port использовался каким-то другим сервисом

root@mapr007 conf.dist]# netstat -anp | grep 10009

но ничего не обнаружено.

Не уверен, с чего начать отладку отсюда, поэтому любые предложения или информация будут оценены.


ОБНОВИТЬ

Перезапускаем сервисы, чтобы попытаться получить больше данных регистрации, теперь видим некоторые ошибки (лучше, чем просто не жаловаться, а потом не работать, я думаю)

[root@mapr007 conf.dist]# for i in `ls /etc/init.d/ | grep cdap` ; do sudo service $i stop ; done
/usr/bin/id: cannot find name for group ID 504
Mon Nov 26 11:06:29 HST 2018 Stopping CDAP Auth Server ...
/usr/bin/id: cannot find name for group ID 504
Mon Nov 26 11:06:29 HST 2018 Stopping CDAP Kafka Server ....

/usr/bin/id: cannot find name for group ID 504
Mon Nov 26 11:06:30 HST 2018 Stopping CDAP Master ...
/usr/bin/id: cannot find name for group ID 504
Mon Nov 26 11:06:31 HST 2018 Stopping CDAP Router ....

/usr/bin/id: cannot find name for group ID 504
Mon Nov 26 11:06:32 HST 2018 Stopping CDAP UI ....

[root@mapr007 conf.dist]# for i in `ls /etc/init.d/ | grep cdap` ; do sudo service $i start ; done
/usr/bin/id: cannot find name for group ID 504
Mon Nov 26 11:06:41 HST 2018 Starting CDAP Auth Server service on mapr007.org.local

/usr/bin/id: cannot find name for group ID 504
Mon Nov 26 11:06:44 HST 2018 Starting CDAP Kafka Server service on mapr007.org.local

/usr/bin/id: cannot find name for group ID 504
Mon Nov 26 11:06:47 HST 2018 Starting CDAP Master service on mapr007.org.local

Warning: Unable to determine $DRILL_HOME
Mon Nov 26 11:07:17 HST 2018 Ensuring required HBase coprocessors are on HDFS
Mon Nov 26 11:08:57 HST 2018 Running CDAP Master startup checks -- this may take a few minutes
[ERROR] Master startup checks failed. Please check /var/log/cdap/master-cdap-mapr007.org.local.log to address issues.
/usr/bin/id: cannot find name for group ID 504
Mon Nov 26 11:10:08 HST 2018 Starting CDAP Router service on mapr007.org.local

/usr/bin/id: cannot find name for group ID 504
Mon Nov 26 11:10:11 HST 2018 Starting CDAP UI service on mapr007.org.local

Проверяя содержимое файла /var/log/cdap/master-cdap-mapr007.org.local.log, внизу можно увидеть

...
...
...
2018-11-26 11:10:06,996 - ERROR [main:c.c.c.m.s.MasterStartupTool@109] - YarnCheck failed with RuntimeException: Unable to get status of YARN nodemanagers. Please check that YARN is running and that the correct Hadoop configuration (core-site.xml, yarn-site.xml) and libraries are included in the CDAP master classpath.
java.lang.RuntimeException: Unable to get status of YARN nodemanagers. Please check that YARN is running and that the correct Hadoop configuration (core-site.xml, yarn-site.xml) and libraries are included in the CDAP master classpath.
    at co.cask.cdap.master.startup.YarnCheck.run(YarnCheck.java:79) ~[co.cask.cdap.cdap-master-5.1.0.jar:na]
    at co.cask.cdap.common.startup.CheckRunner.runChecks(CheckRunner.java:51) ~[co.cask.cdap.cdap-common-5.1.0.jar:na]
    at co.cask.cdap.master.startup.MasterStartupTool.canStartMaster(MasterStartupTool.java:106) [co.cask.cdap.cdap-master-5.1.0.jar:na]
    at co.cask.cdap.master.startup.MasterStartupTool.main(MasterStartupTool.java:96) [co.cask.cdap.cdap-master-5.1.0.jar:na]
Caused by: java.util.concurrent.TimeoutException: null
    at java.util.concurrent.FutureTask.get(FutureTask.java:205) ~[na:1.8.0_181]
    at co.cask.cdap.master.startup.YarnCheck.run(YarnCheck.java:76) ~[co.cask.cdap.cdap-master-5.1.0.jar:na]
    ... 3 common frames omitted
2018-11-26 11:10:07,006 - ERROR [main:c.c.c.m.s.MasterStartupTool@113] -   Root cause: TimeoutException: 
2018-11-26 11:10:07,006 - ERROR [main:c.c.c.m.s.MasterStartupTool@116] - Errors detected while starting up master. Please check the logs, address all errors, then try again.

После "Службы CDAP в распределенном CDAP не запускаются из-за исключительной ситуации. Что мне делать?" Часто задаваемые вопросы в документации не помогли ( https://docs.cask.co/cdap/current/en/ faqs / cdap.html # cdap-services-on-распределенный-cdap-aren-t-запуск-из-за-исключение-то, что я должен делать).

Продолжу отладку, но буду признателен за любое мнение по поводу этих новых ошибок.

1 ответ

Решение

Перезапуск служб Resource Manager и Node Manager в кластере, похоже, решил эту ошибку. Это было сделано главным образом по предположению другого разработчика, основываясь только на том факте, что ошибка была связана с невозможностью подключения CDAP к YARN, несмотря на то, что службы кластера RM и NM работают нормально.

Кроме того, документы по установке CDAP для включения Kerberose ( https://docs.cask.co/cdap/current/en/admin-manual/installation/mapr.html) указывают использование специального ключевого слова. _HOSTнапример

<property>
  <name>cdap.master.kerberos.keytab</name>
  <value>/etc/security/keytabs/cdap.service.keytab</value>
</property>

<property>
  <name>cdap.master.kerberos.principal</name>
  <value><cdap-principal>/_HOST@EXAMPLE.COM</value>
</property>

где _HOST это не просто заполнитель документа, а специальное ключевое слово, которое должно автоматически заполняться (например, см. https://mapr.com/docs/60/Hive/Config-HiveMetastoreForKerberos.html и https://mapr.com/docs/60/SecurityGuide/Config-YARN-Kerberos.html).

По-видимому, для клиентских узлов MapR (т. Е. Не управляющих узлов или узлов данных (узлы, которые просто запускают клиентский пакет MapR для взаимодействия с кластером)), это не работает, и имя хоста сервера принципа Kerberos должно быть задано явно (почти наверняка). документы существуют, но не могу найти в данный момент). Это было обнаружено при дальнейшем изучении журналов и обнаружении того, что службы CDAP пытаются подключиться к _HOST@us.org вместо того чтобы сказать the.actual.domain@us.org,

Другие вопросы по тегам