Как настроить пользовательский параметр Spark в кластере HDInsights с помощью Data Factory

Я создаю кластер HDInsights на Azure в соответствии с этим описанием

Теперь я хотел бы настроить пользовательский параметр spark, например spark.yarn.appMasterEnv.PYSPARK3_PYTHON или spark_daemon_memory во время подготовки кластера.

Можно ли настроить с помощью Data Factory/Automation Account? Я не могу найти ни одного примера, делающего это.

Спасибо

1 ответ

Решение

Ты можешь использовать SparkConfig в фабрике данных, чтобы передать эти конфигурации в Spark.

Например:

"typeProperties": {
...
  "sparkConfig": {
     "spark.submit.pyFiles": "/dist/package_name-1.0.0-py3.5.egg",
     "spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/bin/anaconda/envs/py35/bin/python3"
  }
}

Таким образом, вы можете указать все конфиги Spark, которые перечислены здесь.

Другие вопросы по тегам