Описание тега delta-lake

Delta Lake is an open source project that supports ACID on top of Apache Spark. It provides ACID transactions, scalable metadata handling, time travel, unified batch and streaming source and sink, and is fully compatible with Apache Spark APIs.
7 ответов

Как удалить столбец из таблицы Дельтабрик Дельта?

Недавно я начал обнаруживать блоки данных и столкнулся с ситуацией, когда мне нужно отбросить определенный столбец дельта-таблицы. Когда я работал с PostgreSQL, это было так же просто, как ALTER TABLE main.metrics_table DROP COLUMN metric_1; Я просм…
1 ответ

Таблица данных Delta и Hive Transactional Table

Я видел из двух источников, что сейчас вы не можете каким-либо образом взаимодействовать с транзакционными таблицами HIVE от Spark. Улей КИСЛОТА Таблицы транзакций Hive не читаются искрой Я вижу, Databricks выпустил транзакционную функцию под назван…
12 дек '18 в 22:27
2 ответа

Как явные разделы таблиц в Databricks влияют на производительность записи?

У нас есть следующий сценарий: У нас есть существующая таблица, содержащая ок. 15 миллиардов записей. Это не было явно разделено на создание. Мы создаем копию этой таблицы с разделами, надеясь на более быстрое время чтения для определенных типов зап…
0 ответов

Создание таблицы с использованием Apache Spark в формате delta застряло

Я хочу создать таблицу, используя местоположение дельты, но мой процесс застрял. spark.sql("CREATE TABLE bronze_table USING DELTA LOCATION 'dbfs:/mnt/poc-databricks-folder/bronze/delta'") ... Запуск команды Процесс не завершен, я запустил это 24 час…
1 ответ

Можем ли мы использовать Scala для выполнения операций UPDATE и DELETE с дельта-таблицами Databricks?

Я могу создавать дельта-таблицы блоков данных с использованием scala и выполнять над ним операции добавления и перезаписи. Есть ли способ, которым я могу выполнять операции удаления и обновления, используя Scala, а не через среду выполнения Databric…
29 май '19 в 13:39
1 ответ

Концепции Apache Spark + Delta Lake

У меня много сомнений по поводу Spark + Delta. 1) Блок данных предлагает 3 слоя (бронза, серебро, золото), но какой слой рекомендуется использовать для машинного обучения и почему? Я предполагаю, что они предлагают, чтобы данные были чистыми и готов…
4 ответа

Каков наилучший способ очистки и воссоздания таблицы данных дельтабрик?

Я пытаюсь очистить и воссоздать дельта-таблицу блоков данных для интеграционных тестов. Я хочу запустить тесты на агенте devops, поэтому я использую JDBC (драйвер Simba), но он говорит, что тип оператора "DELETE" не поддерживается. Когда я очищаю ба…
04 апр '19 в 10:28
1 ответ

Где дельтабрик данных хранит свои метаданные?

Hive хранит метаданные. Я внешняя база данных, как SQL-сервер. Подобно тому, где в дельте блоков данных хранятся данные метаданных?
0 ответов

Является ли это лучшим методом для загрузки и объединения данных в существующую таблицу дельта на кирпичи данных?

Я новичок в использовании Databricks и пытаюсь проверить правильность непрерывной загрузки почасового файла в основной файл, который будет использоваться для отчетов. Каждый почасовой файл занимает примерно 3-400 ГБ и содержит ~1-1.3b записей. Я хот…
1 ответ

Блоки данных - ошибка записи из DataFrame в местоположение Delta

Я хотел изменить имя столбца таблицы дельта Databricks. Итак, я сделал следующее: // Read old table data val old_data_DF = spark.read.format("delta") .load("dbfs:/mnt/main/sales") // Created a new DF with a renamed column val new_data_DF = old_data_…
06 май '19 в 14:14
3 ответа

Блоки данных - Как изменить раздел существующей таблицы Delta?

У меня есть таблица в дельте Databricks, которая разделена на transaction_date, Я хочу изменить столбец раздела на view_date, Я попытался удалить таблицу, а затем создать ее с новым столбцом раздела, используя PARTITIONED BY (view_date), Однако моя …
04 мар '19 в 18:12
1 ответ

В чем разница между очередями таблиц, использующих формат Delta с Pyspark-SQL, и Pyspark?

Я запрашиваю таблицы, но у меня разные результаты, используя два способа, я хотел бы понять причину. Я создал таблицу, используя местоположение Delta. Я хочу запросить данные, которые я сохранил в этом месте. Я использую Amazon S3. Я создал таблицу …
0 ответов

Как остановить одновременную запись во внешнюю таблицу Delta Lake?

Общая таблица EXTERNAL, такая как Oracle, не допускает операции вставки / обновления. Но Databricks EXTERNAL Delta Table разрешает операцию обновления / вставки. Таким образом, я могу видеть недостаток, или в любом случае, чтобы остановить это? Прим…
16 июн '19 в 17:49
0 ответов

Не удается найти / получить доступ к сохраненным таблицам в потоке foreach

Я пытаюсь сохранить данные из данных в таблицу def SaveData(row): ... # read csv string df = spark.read \ .option("header", True) \ .option("delimiter","|") \ .option("quote", "\"") \ .option("nullValue", "\\N") \ .schema(schemaMapping) \ .csv(csvDa…
26 июн '19 в 04:04
1 ответ

Загрузка данных в озеро дельты из хранилища лазурной капли

Я пытаюсь загрузить данные в озеро дельты из хранилища голубых блобов. Я использую приведенный ниже фрагмент кода storage_account_name = "xxxxxxxxdev" storage_account_access_key = "xxxxxxxxxxxxxxxxxxxxx" file_location = "wasbs: //bicc-hdspk-eus-qc@x…
1 ответ

Ошибка контрольной суммы блоков данных при записи в файл

Я выполняю работу в 9 узлах. Все они собираются записать некоторую информацию в файлы, делая простые записи, как показано ниже: dfLogging.coalesce(1).write.format('delta').mode('append').save('/dbfs/' + loggingLocation) Однако я получаю это исключен…
0 ответов

Присоединяйтесь к потоковому потоку, оставляя внешнее объединение сомнений с помощью Spark структурированной потоковой передачи

У меня нет четких понятий о структурированной потоковой передаче. У меня есть 5 потоков данных в виде неограниченных таблиц, мне нужно выполнить некоторую левую операцию внешнего соединения между ними и записать результат в другой поток данных. Напр…
0 ответов

Как консолидировать поток, используя Spark Structured Streaming?

Мне нужно распространять обновления в мои потоки на основе потока только-добавления. Например: Только добавляемый поток | Column Name | Column Timestamp | Column Value | | Mark | 2019:08:27 13:00 | X | | ... | ... | ... | | Tom | 2019:09:27 13:00 | …
2 ответа

Откат Дельта-Лейк

Нужен элегантный способ отката Delta Lake до предыдущей версии. Мой текущий подход указан ниже: import io.delta.tables._ val deltaTable = DeltaTable.forPath(spark, testFolder) spark.read.format("delta") .option("versionAsOf", 0) .load(testFolder) .w…
27 авг '19 в 01:53
1 ответ

NoneJava .lang.NoClassDefFoundError: org/apache/spark/sql/ катализатора / планы / логический /AnalysisHelper при записи дельта-озера в хранилище s3

Я пытался преобразовать какой-нибудь файл рассола в s3 в дельта-лейк. То, как я это сделал, использует boto для загрузки данных и преобразования в искровой dataframe, а затем использует data.write.format('delta'). Save(s3_path) Но когда я пытался со…
03 июн '19 в 17:57