Установка библиотеки Maven на Databricks с помощью команд Python и dbutils
В Databricks я хотел бы установить библиотеку Maven с помощью команд в записной книжке Python, если она еще не установлена.
Если бы это была библиотека Python PyPI, я бы сделал что-то вроде следующего:
# Get a list of all available library
library_name_list = dbutils.library.list()
# Suppose the library of interest was "scikit-learn"
if "scikit-learn" not in library_name_list:
# Install the library
dbutils.library.installPyPI("scikit-learn")
Как я могу сделать то же самое для библиотеки Maven "com.microsoft.azure.kusto:spark-kusto-connector:2.0.0", т.е. проверить, установлена ли она уже, а если нет, то установить?
Я могу установить библиотеку Maven с помощью пользовательского интерфейса, выбрав "Кластеры" -> "Библиотеки" -> "Установить новую" -> "Maven". Но хотелось бы сделать это программно через скрипт.
1 ответ
Примечание. Библиотечные утилиты (
dbutils.library.installPyPI("")
) позволяют устанавливать библиотеки Python и создавать среду, привязанную к сеансу записной книжки.
Вот шаги, чтобы программно установить библиотеки из репозитория maven:
Вы можете использовать интерфейс командной строки Databricks для установки библиотек maven в Azure Databricks.
Шаг 1. Из координат maven вы можете перейти в репозиторий Maven, выбрать версию, которую вы ищете, и отметить зависимость (groupId, artifactId и Version).
Шаг 2 Получите идентификатор кластера с помощью интерфейса командной строки databricks.
Чтобы получить идентификатор кластера:
databricks clusters list
Шаг 3. Используйте приведенную ниже команду Databricks CLI для установки '
com.microsoft.azure.kusto:spark-kusto-connector:2.0.0
'в Databricks.
Синтаксис:
databricks libraries install --cluster-id "Cluster ID" --maven-coordinates "GroupId:ArtifactId:Version" (i.e.org.jsoup:jsoup:1.7.2)
Чтобы установить библиотеку maven с помощью интерфейса командной строки databricks:
databricks libraries install --cluster-id "1013-095611-mazes551" --maven-coordinates "com.microsoft.azure.kusto:spark-kusto-connector:2.0.0"
Чтобы проверить установленные библиотеки в кластере:
databricks libraries list --cluster-id "1013-095611-mazes551"
Чтобы узнать о различных методах установки пакетов в Azure Databricks, см. Статью Как установить библиотеку в кластере модулей данных с помощью какой-либо команды в записной книжке?