Описание тега dbutils

Утилиты Databricks Utilities (dbutils) работают с объектным хранилищем для связывания и параметризации записных книжек, а также для работы с секретами.
0 ответов

NullPointerException при использовании утилит Databricks в Azure Databricks в настраиваемом jar

У меня возникает эта проблема, когда я пытаюсь использовать DBUtils 0.0.4: java.lang.NullPointerException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)…
22 мар '20 в 10:14
1 ответ

DBFS: как получить время последнего доступа к файлу DBFS в Datarbricks

Можно ли узнать время, когда файл был открыт в последний раз, например ls -ltu список всех файлов, показ и сортировка по времени доступа в Unix с помощью dbutils. Это необходимо для получения статистики о файле ADLS в примечании Databricks.
28 апр '20 в 18:16
2 ответа

Как правильно получить доступ к dbutils в Scala при использовании Databricks Connect

Я использую Databricks Connect для локального запуска кода в моем кластере Azure Databricks из IntelliJ IDEA (Scala). Все нормально работает. Я могу подключаться, отлаживать, проверять локально в среде IDE. Я создал задание Databricks для запуска св…
1 ответ

Как сгенерировать привилегированный токен databricks, действующий более 48 часов

Хотел бы запустить локальную записную книжку Jupiter, подключенную к кластеру Azure databricks, и вам нужно использовать dbutils для получения секретов. Для этого необходимо сохранить привилегированный токен локально, и он будет действовать только 2…
2 ответа

ModuleNotFoundError: нет модуля с именем pyspark.dbutils

Я запускаю pyspark из записной книжки для машинного обучения Azure. Я пытаюсь переместить файл с помощью модуля dbutil. from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() def get_dbutils(spark): try: from pyspark.dbutils…
2 ответа

Могу ли я вернуть более одного значения из записной книжки Databricks за одну команду?

У меня есть набор значений, которые нужно вернуть в качестве вывода из моей записной книжки с данными. Может ли кто-нибудь предложить способ сделать это эффективным и простым способом?
12 фев '20 в 15:23
2 ответа

Проверьте, существует ли путь в Databricks

Я пытаюсь проверить, существует ли путь в Databricks с помощью Python: try: dirs = dbutils.fs.ls ("/my/path") pass except IOError: print("The path does not exist") Если путь не существует, я ожидаю, что exceptинструкция выполняется. Однако вместоexc…
17 фев '20 в 19:52
1 ответ

Исключение в потоке "main" java.lang.NullPointerException com.databricks.dbutils_v1.DBUtilsHolder$$anon$1.invoke

Я хотел бы прочитать паркетный файл в Azure Blob, поэтому я подключил данные из Azure Blob к локальному с помощью dbultils.fs.mount Но у меня есть ошибки Exception in thread "main" java.lang.NullPointerException Ниже мой журнал: hello big data Using…
1 ответ

Как убить параллельное выполнение записных книжек Databricks?

В настоящее время я использую Python Threadingдля распараллеливания выполнения нескольких записных книжек Databricks. Это долговечные записные книжки, и мне нужно добавить некоторую логику для отключения потоков в случае, когда я хочу перезапустить …
0 ответов

Невозможно скопировать файл dbfs в кластер выпуска сообщества databricks. FileNotFoundError: [Errno 2] Нет такого файла или каталога:

Попытка прочитать файл журнала изменений в кластере выпуска сообщества databricks. (версия databricks-7.2) df=spark.range(100).toDF("id") df.show() df.repartition(1).write.mode("append").format("delta").save("/user…
24 авг '20 в 02:16
0 ответов

ModuleNotFoundError: нет модуля с именем pyspark.dbutils при запуске файла / записной книжки multiple.py на кластерах заданий в блоках данных

Я работаю в среде TravisCI, MlFlow и Databricks, где.tavis.yml находится в главной ветке git и обнаруживает любые изменения в .pyфайл, и всякий раз, когда он обновляется, он запускает команду mlflow для запуска файла.py в среде databricks. мой файл …
19 май '20 в 01:15
1 ответ

dbutils.notebook.run не выбирает запуск записной книжки, сохраненной в расположении DBFS

Я экспортирую содержимое каталога рабочей области databricks (/Users/xyz/), в котором есть несколько записных книжек и сценариев python, в конкретное место для модулей данных, например /dbfs/tmp, а затем пытаюсь вызвать следующий код для запуска зап…
04 июн '20 в 22:31
2 ответа

Как вызвать Databricks dbutils с помощью Scala Reflection / Mirrors

Я хочу позвонить com.databricks.dbutils_v1.DBUtilsHolder.dbutils.secrets.get(scope = "myScope", key = "myKey") с помощью зеркалирования. Пока я добиваюсь этого: val className = "com.databricks.dbutils_v1.DBUtilsHolder" …
27 авг '20 в 10:05
1 ответ

Установка библиотеки Maven на Databricks с помощью команд Python и dbutils

В Databricks я хотел бы установить библиотеку Maven с помощью команд в записной книжке Python, если она еще не установлена. Если бы это была библиотека Python PyPI, я бы сделал что-то вроде следующего: # Get a list of all available library library_n…
0 ответов

Скопируйте txt-файл из файлов Azure в хранилище BLOB-объектов с помощью Databricks

Я хочу прочитать файл из файлов Azure (это удалось с помощью ShareClient) и экспортировать этот файл в хранилище BLOB-объектов Azure. Сначала я монтирую контейнер в Databricks с помощью следующего кода: def mount(container, account_name): "&quo…
3 ответа

Как скопировать локальный файл в хранилище файлов DBFS Azure Databricks

Я использую приведенную ниже команду в Azure Databricks, чтобы попытаться скопировать файл test.csv с локального диска C: в расположение dbfs Databricks, как показано. dbutils.fs.cp("C:/BoltQA/test.csv", "dbfs:/tmp/test_files/test.csv…
12 ноя '20 в 11:51
0 ответов

Scala Jar: чтение секретов Databricks с помощью DBUtils

Я пытаюсь запустить Scala jar в кластере Databricks, получая HiveException: Unable to execute method public java.lang.String udfDecrypt.evaluate(java.lang.String) with arguments {***gAAAAABgKpJSbxtLkTiED3B3bMGEV0pdgMuE4km85NWJQ4Rh9zzV9pW1TN-wnfTx0-s…
0 ответов

Переименуйте файлы (добавьте отметку времени) и переместите их в другую папку на ADLS Gen2 (Databricks)

Я хочу добавить метку времени к имени каждого файла и переместить его в другую папку на ADLS Gen2 из записной книжки с данными. Я мог бы указать имя файла, как показано ниже. fileList = dbutils.fs.ls(file_input) for i in fileList: try: file_path = i…
16 мар '21 в 09:12
0 ответов

DBUtils: удаление файлов на основе имени файла, содержащего строку

Предполагая, что у меня есть тысячи файлов в моей DBFS, я ищу способ удалить файлы на основе имени файла, содержащего определенную строку, без необходимости вводить их один за другим. Есть ли способ сделать это? заранее спасибо
18 мар '21 в 14:08
0 ответов

Почему pool.connection().cursor().execute() является предупреждающей операцией?

Я новичок в python и изучаю работу с БД с помощью DBUtils. Почему pool.connection (). Cursor (). Execute () слишком рано освобождает соединение для повторного использования? Если он вам больше не нужен, вы должны немедленно вернуть его в пул с помощ…
20 мар '21 в 06:29