Как настроить пользовательский параметр Spark в кластере HDInsights с помощью Data Factory
Я создаю кластер HDInsights на Azure в соответствии с этим описанием
Теперь я хотел бы настроить пользовательский параметр spark, например spark.yarn.appMasterEnv.PYSPARK3_PYTHON или spark_daemon_memory во время подготовки кластера.
Можно ли настроить с помощью Data Factory/Automation Account? Я не могу найти ни одного примера, делающего это.
Спасибо
1 ответ
Решение
Ты можешь использовать SparkConfig
в фабрике данных, чтобы передать эти конфигурации в Spark.
Например:
"typeProperties": {
...
"sparkConfig": {
"spark.submit.pyFiles": "/dist/package_name-1.0.0-py3.5.egg",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/bin/anaconda/envs/py35/bin/python3"
}
}
Таким образом, вы можете указать все конфиги Spark, которые перечислены здесь.