Установка библиотеки Maven на Databricks с помощью команд Python и dbutils

В Databricks я хотел бы установить библиотеку Maven с помощью команд в записной книжке Python, если она еще не установлена.

Если бы это была библиотека Python PyPI, я бы сделал что-то вроде следующего:

# Get a list of all available library 
library_name_list = dbutils.library.list()
# Suppose the library of interest was "scikit-learn"
if "scikit-learn" not in library_name_list:
  # Install the library 
  dbutils.library.installPyPI("scikit-learn")

Как я могу сделать то же самое для библиотеки Maven "com.microsoft.azure.kusto:spark-kusto-connector:2.0.0", т.е. проверить, установлена ​​ли она уже, а если нет, то установить?

Я могу установить библиотеку Maven с помощью пользовательского интерфейса, выбрав "Кластеры" -> "Библиотеки" -> "Установить новую" -> "Maven". Но хотелось бы сделать это программно через скрипт.

1 ответ

Решение

Примечание. Библиотечные утилиты (dbutils.library.installPyPI("")) позволяют устанавливать библиотеки Python и создавать среду, привязанную к сеансу записной книжки.

Вот шаги, чтобы программно установить библиотеки из репозитория maven:

Вы можете использовать интерфейс командной строки Databricks для установки библиотек maven в Azure Databricks.

Шаг 1. Из координат maven вы можете перейти в репозиторий Maven, выбрать версию, которую вы ищете, и отметить зависимость (groupId, artifactId и Version).

Шаг 2 Получите идентификатор кластера с помощью интерфейса командной строки databricks.

Чтобы получить идентификатор кластера: databricks clusters list

Шаг 3. Используйте приведенную ниже команду Databricks CLI для установки ' com.microsoft.azure.kusto:spark-kusto-connector:2.0.0'в Databricks.

Синтаксис: databricks libraries install --cluster-id "Cluster ID" --maven-coordinates "GroupId:ArtifactId:Version" (i.e.org.jsoup:jsoup:1.7.2)

Чтобы установить библиотеку maven с помощью интерфейса командной строки databricks: databricks libraries install --cluster-id "1013-095611-mazes551" --maven-coordinates "com.microsoft.azure.kusto:spark-kusto-connector:2.0.0"

Чтобы проверить установленные библиотеки в кластере: databricks libraries list --cluster-id "1013-095611-mazes551"

Чтобы узнать о различных методах установки пакетов в Azure Databricks, см. Статью Как установить библиотеку в кластере модулей данных с помощью какой-либо команды в записной книжке?

Другие вопросы по тегам