Журналы кластера EMR сообщают, что версия Python не существует при запуске задания конвейера данных, когда эта версия установлена

Всем доброе утро! Я немного запутался во всех различных слоях абстракции, поэтому я надеюсь, что, разместив этот вопрос, я оба немного пойму мою проблему и, возможно, соберу ваши идеи о том, что является причиной проблемы.

Моя настройка:

  • 1 EMR-кластер с бастионным сервером
  • 1 конвейер данных, который представляет различные сценарии для запуска в кластере EMR как отдельные (pyspark) задания

Вопрос:

Я установил Python 3.6 на экземпляр EC2, упоминаемый в журналах кластера EMR как имеющий проблему с версией Python. По сути, он должен запускать Python 3.6 для моих целей. Я установил Python 3.6 на этот экземпляр EC2, проверил, что он работает, а затем изменил spark-env.sh файл для использования установленного Python 3.6, как описано в этом ответе. Я знаю, что изменения работали в номинальном смысле, потому что в журналах кластера EMR возникает новая ошибка:

18/05/18 14:15:43 ERROR ApplicationMaster: User class threw exception: java.io.IOException: Cannot run program "/usr/local/bin/python3.6": error=2, No such file or directory

но это не сработало в том смысле, что установка Python 3.6 не затронула все необходимые области. FWIW, то же самое происходит с Python 3.5

Должен ли я запустить новый кластер EMR с загрузкой Python 3.6 и запустить на нем задания конвейера данных? Я знаком с тем, чтобы задавать вопросы по Python и приводить минимум жизнеспособных примеров, но с AWS я не совсем уверен, что предоставить, поэтому, пожалуйста, дайте мне знать, если вам нужна дополнительная или другая информация. Спасибо как всегда!

0 ответов

Другие вопросы по тегам