Описание тега databricks

По вопросам о единой платформе аналитики Databricks
1 ответ

Устаревший Jar в Classpath Databricks

Я пытаюсь запустить некоторый код в Databricks с прикрепленным Jar-файлом. Ошибка, которую я получаю, связана с устаревшим Jar в пути к классам. Я загрузил последнюю версию Jar, но, видимо, устаревшая версия все еще где-то в пути к классам. Есть ли …
1 ответ

Spark Создать фрейм данных из InputStream?

Я хочу избежать записи всего потока в файл, а затем загрузить его в dataframe. какой правильный путь?
14 июн '17 в 17:45
0 ответов

Как изменить тип данных по умолчанию для экспорта?

Я работаю в Databricks. После запроса моих данных через pySql я хочу экспортировать полученный DataFrame. Когда я делаю это, он экспортирует 1 из многих столбцов неправильно, насколько тип данных идет. Я предполагаю, что - перед экспортом - я должен…
21 авг '18 в 14:26
1 ответ

Как убить работу в Databricks

У меня долгая работа, и если будут выполнены определенные условия, я бы хотел ее убить. Это традиционно делается в Python, как: if some_condition: exit('job failed!) Это работает при традиционном запуске сценария Python из командной строки. Однако, …
04 сен '18 в 17:20
3 ответа

Как заменить пробел в Spark (с помощью Scala)?

У меня есть файл журнала, как это. Я хочу создать DataFrame в Scala. 2015-05-13T23:39:43.945958Z my-loadbalancer 192.168.131.39:2817 10.0.0.1:80 0.000086 0.001048 0.001337 200 200 0 57 "GET https://www.example.com:443/ HTTP/1.1" "curl/7.38.0" DHE-RS…
0 ответов

Обработка SOAP POST-запроса для DataBricks через Spark API

Я пытаюсь создать в Azure Databricks функциональность, которая бы извлекала значение из входящего почтового запроса SOAP (XML-файла), предпочтительно с использованием Python / PySpark, который затем использовался бы в другом процессе, использующем P…
15 авг '18 в 16:41
0 ответов

Получение нулевого значения при выборе второго или дальнейшего столбцов в Spark DataFrame

Поэтому у меня есть, например, следующий файл XML: <root> <first> <a>textA</a> </first> <second> <b>textB</b> </second> <third> <c>textC</c> </third> </root> Я загру…
2 ответа

Есть ли хороший способ присоединиться к потоку в искре с пеленальным столом?

Наша среда Spark: DataBricks 4.2 (включает Apache Spark 2.3.1, Scala 2.11) Чего мы пытаемся достичь: мы хотим обогатить потоковые данные некоторыми справочными данными, которые регулярно обновляются. Обогащение осуществляется путем объединения поток…
23 авг '18 в 15:42
1 ответ

Преобразование StructType в Avro Schema возвращает тип как Union при использовании блоков данных spark-avro

Я использую блоки данных spark-avro для преобразования схемы данных в схему avro. Возвращенная схема avro не может иметь значение по умолчанию. Это вызывает проблемы, когда я пытаюсь создать общую запись из схемы. Может ли кто-нибудь помочь с правил…
3 ответа

Как я могу прочитать файл XML Azure Databricks Spark

Я искал некоторую информацию на форумах MSDN, но не смог найти хороший форум / При чтении на спарк-сайте у меня есть подсказка, что здесь у меня больше шансов. Итак, в заключение, я хочу прочитать хранилище BLOB-объектов, в котором есть непрерывный …
09 окт '18 в 20:19
1 ответ

Создать новую таблицу из подключения DBFS к озеру данных Azure

У меня есть каталог на озере данных Azure, подключенный к кластеру блоков данных Azure. Просматривая файловую систему с помощью инструментов CLI или просто запуская утилиты dbfs через ноутбук, я вижу, что в этом каталоге есть файлы и данные. Далее -…
23 июл '18 в 09:25
3 ответа

Объединить два искровых кадра данных на основе столбца

У меня есть 2 кадра данных, которые мне нужно объединить на основе столбца (код сотрудника). Обратите внимание, что в фрейме данных содержится около 75 столбцов, поэтому я предоставляю пример набора данных, чтобы получить некоторые предложения / при…
20 дек '18 в 16:00
3 ответа

pyspark заменяет несколько значений на ноль в датафрейме

У меня есть датафрейм (df) и в рамках этого фрейма у меня есть столбец user_id df = sc.parallelize([(1, "not_set"), (2, "user_001"), (3, "user_002"), (4, "n/a"), (5, "N/A"), (6, "userid_not_set"), (7, "user_003"), (8, "user_004")]).toDF(["key", "use…
21 дек '18 в 12:50
2 ответа

Как установить PYODBC в Databricks

Я должен установить модуль pyodbc в Databricks. Я попытался с помощью этой команды (pip install pyodbc) но это не удалось из-за ошибки ниже. Сообщение об ошибке
10 янв '19 в 15:47
1 ответ

PySpark 2 - объединить записи из нескольких строк

У меня есть текстовый файл, который имеет следующие записи: <BR>Datetime:2018.06.30^ Name:ABC^ Se:4^ Machine:XXXXXXX^ InnerTrace:^ AdditionalInfo:^ <ER> <BR>Datetime:2018.05.30-EDT^ Name:DEF^ Se:4^ Machine:XXXXXXX^ InnerTrace:^ Add…
06 авг '18 в 20:48
0 ответов

Интеграция Databricks-GitHub, автоматическое добавление всех записных книжек в хранилище

Я пытаюсь настроить интеграцию GitHub для Databricks.У нас есть сотни ноутбуков, и было бы утомительно добавлять каждый ноутбук вручную в репо. Есть ли способ автоматически фиксировать и переносить все записные книжки из блоков данных в хранилище?
06 ноя '18 в 09:47
1 ответ

Как использовать кластеризацию Zorder при написании дельта-таблицы в PySpark?

Я пытаюсь написать очень большой фрейм данных PySpark, следуя совету, который я вижу в https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html Тем не менее, эта страница показывает советы в Scala, ко…
1 ответ

XML-источник для Spark и групповой работы

Я использую XML источник из databricks, Вот мой XML Пример данных. <ds Name="abc"> <node begin="18" end="22" val="Organic" type="type1"> <hs id="0" begin="18" end="91" /> </node> <node begin="22" end="23" val="Cereal"> …
1 ответ

Ошибка чтения файла метаданных sas через гавань пакета R

Я использую библиотеку убежища для чтения метаданных файла SAS из файла sas7bdat. Ниже приведен код, используемый мной library(haven) sas_file <- read_sas("/dbfs/mnt/test1/Disease/Heart Attack/SAS/airline.sas7bdat", catalog_file = "/dbfs/mnt/test…
04 июн '18 в 15:49
1 ответ

PySpark заполнить отсутствующее / неправильное значение сгруппированным средним

У меня есть Spark dataframe с одним отсутствующим и одним неправильным значением. from pyspark.sql import Row from pyspark.sql.types import StringType, DoubleType, StructType, StructField # fruit sales data data = [Row(id='01', fruit='Apple', qty=5.…
19 янв '19 в 21:22