nifi pyspark - "нет модуля с именем boto3"

Я пытаюсь запустить созданное мной задание pyspark, которое загружает и выгружает данные из s3 с помощью библиотеки boto3. В то время как задание работает в pycharm нормально, когда я пытаюсь запустить его в nifi, используя этот шаблон, https://github.com/Teradata/kylo/blob/master/samples/templates/nifi-1.0/template-starter-pyspark.xml

Ошибки ExecutePySpark с "Нет модуля с именем boto3".

Я удостоверился, что это было установлено в моей среде conda, которая активна.

Любые идеи, я уверен, что я упускаю что-то очевидное.

Вот изображение процессора nifi spark.

введите описание изображения здесь

Спасибо тим

1 ответ

Решение

Среда Python, где PySpark должен работать настроен через PYSPARK_PYTHON переменная.

  • Перейти в каталог установки Spark
  • Идти к conf
  • редактировать spark-env.sh
  • Добавьте эту строку: export PYSPARK_PYTHON=PATH_TO_YOUR_CONDA_ENV
Другие вопросы по тегам