Как отправить потоковое задание Hadoop и проверить историю выполнения с помощью Hadoop 2.x
Я новичок в Hadoop. В Hadoop 1.X я могу отправить потоковое задание hadoop из главного узла и проверить результат и время выполнения из веб-сайта namenode.
Ниже приведен пример кода для потоковой передачи hadoop в Hadoop 1.X:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc
Однако в Hadoop 2.x средство отслеживания заданий удалено. Как я могу получить такую же функцию в Hadoop 2.X?
1 ответ
В Hadoop 2.0 вы можете просматривать задания несколькими способами
1) Просмотр заданий из пользовательского интерфейса ResourceManager ResourceMnagerhostname: 8088 / cluster
2) Просмотр вакансий от HUE - HUEServerHostname.com:8888/jobbrowser/
3) Из командной строки (после завершения задания)
использование: журналы пряжи -applicationId [ОПЦИИ]
общие параметры: -appOwner AppOwner (предполагается, что он является текущим пользователем, если не указан) -containerId ContainerId (должен быть указан, если указан адрес узла) -nodeAddress NodeAddress в формате имя узла: порт (должен быть указан, если указан идентификатор контейнера). Пример: журналы пряжи -applicationId application_1414530900704_0005