Как узнать состояние работы Spark
Теперь у меня есть работа, выполняющаяся на amazon ec2, и я использую putty для соединения с кластером ec2, но просто знаю, что соединение putty потеряно. После повторного соединения с кластером ec2 у меня нет вывода работы, поэтому я не делаю знаю, если моя работа все еще выполняется. Кто-нибудь знает, как проверить состояние работы Spark?
Спасибо
2 ответа
Предполагая, что вы находитесь в кластере пряжи, вы можете запустить yarn application -list, чтобы получить список приложений, а затем запустить yarn application -status applicationId, чтобы узнать статус
Это хорошая практика для использования GNU Screen
(или другой аналогичный инструмент), чтобы сохранить сеанс в живых (но отключен, если соединение с машиной потеряно) при работе на удаленных машинах.
Статус приложения Spark можно узнать из пользовательского интерфейса Spark (или пользовательского интерфейса Yarn).
Если вы ищете команду cli:
Для автономного кластера используйте:
spark-submit --status <app-driver-id>
Для пряжи:
yarn application --status <app-id>