Описание тега azure-databricks

По вопросам использования Databricks Unified Analytics Platform в Microsoft Azure
2 ответа

Как установить PYODBC в Databricks

Я должен установить модуль pyodbc в Databricks. Я попытался с помощью этой команды (pip install pyodbc) но это не удалось из-за ошибки ниже. Сообщение об ошибке
10 янв '19 в 15:47
1 ответ

Соединение хранилища озера данных 2-го поколения с блоками данных

Я пытаюсь соединить блоки данных MS Azure с хранилищем озера данных v2 и не могу сопоставить клиента, секретную область и ключ. У меня есть данные в озере данных Azure v2. Я пытаюсь следовать этим инструкциям: https://docs.azuredatabricks.net/spark/…
29 янв '19 в 21:58
1 ответ

Как исправить несогласованные схемы в разделе паркетных файлов с помощью Spark

Я новичок в спарке и столкнулся с проблемой при добавлении новых данных в раздел. Мой конвейер вводит ежедневные CSV-файлы в Azure Datalake (в основном HDFS), используя блоки данных. Я также выполняю несколько простых преобразований данных, удаляю д…
2 ответа

Scala UDF завершается неудачно при вызове из оператора SELECT в DataBricks / Spark

У меня есть следующая функция Scala, которую я зарегистрировал как UDF в Azure DataBricks (Spark 2.3.1 и Scala 2.11): import org.joda.time.DateTime val slot = (dt : DateTime) => { var _s : Int = (dt.dayOfYear().get() - 1) * 24 + dt.hourOfDay().ge…
2 ответа

Проблемы с преобразованием данных в датафрейме

Я написал функцию (проверено и работает) ниже: import pandas as pd def ConvertStrDateToWeekId(strDate): dateformat = '2016-7-15 22:44:09' aDate = pd.to_datetime(strDate) wk = aDate.isocalendar()[1] yr = aDate.isocalendar()[0] Format_4_5_4_date = str…
10 дек '18 в 19:52
2 ответа

Проверка версии среды выполнения Databricks в Azure

Можно ли проверить версию среды выполнения Databricks в Azure?
12 дек '18 в 10:28
1 ответ

Как экспортировать полный результат Databricks Azure

Я экспортирую данные из блоков данных вручную с помощью опции полного результата загрузки, используя команду "display". Пример display (predictions.select ("productid", "prediction")) Но он возвращает только 1 000 000, у меня есть еще много записей.…
12 дек '18 в 18:02
1 ответ

spark.conf.set с SparkR

У меня есть кластер Databricks, работающий в Azure, и я хочу читать / записывать данные из хранилища озера данных Azure, используя SparkR / sparklyr, Поэтому я настроил два ресурса. Теперь я должен предоставить среде Spark необходимые конфигурации д…
1 ответ

Как экспортировать мой прогноз (массив) в лазурные блоки данных?

Я не могу экспортировать мой dataframe в csv. Сообщение "CSV источник данных не поддерживает массив" Предсказания.write.option("разделитель", "\t").csv("/mnt/ классификация2018/testpredic2") Я пробовал эту команду, но конкатенировал, но не успех fro…
19 дек '18 в 18:26
2 ответа

Обозреватель данных: ImportError Нет модуля с именем Kqlmagic

Я следую этому руководству: https://docs.microsoft.com/en-us/azure/data-explorer/kqlmagic У меня есть кластер Databricks, поэтому я решил использовать записную книжку, доступную там. Когда я добираюсь до шага 2 и запускаю: reload_ext Kqlmagic Я полу…
24 дек '18 в 15:10
1 ответ

Как TRUNCATE и / или использовать подстановочные знаки с Databrick

Я пытаюсь написать скрипт в блоках данных, который будет выбирать файл на основе определенных символов в имени файла или только на отметке даты в файле. Например, следующий файл выглядит следующим образом: LCMS_MRD_Delta_LoyaltyAccount_1992_2018-12-…
0 ответов

Сбой при инициализации OfflineCredentials$Api при использовании Scala в записной книжке Azure Databricks

Я получаю сообщение об ошибке ниже, когда пытаюсь использовать OfflineCredentials для установления соединения с Google Adwords API в блокноте данных Azure. java.lang.NoClassDefFoundError: Не удалось инициализировать класс com.google.api.ads.common.l…
03 янв '19 в 13:08
1 ответ

Подключение к локальной версии SQL Server через блоки данных Azure

Поддерживает ли блок данных Azure подключение к локальному SQL Server?
17 янв '19 в 21:03
1 ответ

Как удалить библиотеки, уже удаленные из рабочей области Azure Databricks

После удаления библиотеки jar, добавленной с параметром "Установить автоматически на всех кластерах", библиотека все еще автоматически устанавливается на все кластеры в рабочей области. Мне нужно удалить или отключить режим автоматической установки …
17 янв '19 в 21:33
1 ответ

Получение `неправильно разделенного кортежа в операторе вставки с одним разделом` при попытке вставить данные в разделенную таблицу с помощью`TABLE_NAME.insert`

Я создаю таблицу VoltDB с данным оператором вставки CREATE TABLE EMPLOYEE ( ID VARCHAR(4) NOT NULL, CODE VARCHAR(4) NOT NULL, FIRST_NAME VARCHAR(30) NOT NULL, LAST_NAME VARCHAR(30) NOT NULL, PRIMARY KEY (ID, CODE) ); И разделить таблицу с PARTITION …
1 ответ

Могу ли я выполнить запросы gremlin для cosmos-db (graph) из записной книжки лазурных баз данных?

Существует ли прямая интеграция Gremlin в блокнот лазурных блоков данных? У меня есть график в cosmosDb, и я хочу выполнить несколько запросов gremlin, например, "gV(). HasLabel('x'). Out('y'). Out('z')"). Я запускаю запросы от Azure Protal, но для …
1 ответ

PySpark для блоков данных: чтение файла CSV, скопированного из хранилища BLOB-объектов Azure, приводит к исключению java.io.FileNotFoundException

Я использую Azure Databricks 4.3 (включает Apache Spark 2.3.1, Scala 2.11). Я скопировал CSV файл из хранилища BLOB-объектов Azure в кластер Databricks с помощью dbutils.fs.cp на диск, добавив file: в абсолют local_path: copy_to = "file:" + local_pa…
1 ответ

Как скачать через URL из DBFS в Azure Databricks

Здесь указано, что я должен загрузить файл из файловой системы Data Bricks с URL-адреса: https://<your-region>.azuredatabricks.net?o=######/files/my-stuff/my-file.txt Но когда я пытаюсь скачать его с URL с моим собственным параметром "o=", по…
29 янв '19 в 17:13
2 ответа

Удалите строки базы данных Azure SQL из блоков данных Azure

У меня есть таблица в базе данных SQL Azure, из которой я хочу удалить выбранные строки на основе некоторых критериев или всю таблицу из блоков данных Azure. В настоящее время я использую свойство truncate JDBC, чтобы обрезать всю таблицу, не удаляя…
2 ответа

Версия R на блоках данных Azure

На данный момент Azure Databricks использует версию R 3.4.4 (2018-03-15), что, на мой взгляд, неприемлемо, поскольку последняя версия R в CRAN - 3.5.2 (2018-12-20). У меня такой вопрос: могу ли я обновить и установить R версии 3.5.2 в Azure Databric…
01 фев '19 в 09:23