Описание тега delta-lake

Описание тега Вопросы с тегом

Delta Lake is an open source project that supports ACID on top of Apache Spark. It provides ACID transactions, scalable metadata handling, time travel, unified batch and streaming source and sink, and is fully compatible with Apache Spark APIs.

7 ответов

Как удалить столбец из таблицы Дельтабрик Дельта?

Недавно я начал обнаруживать блоки данных и столкнулся с ситуацией, когда мне нужно отбросить определенный столбец дельта-таблицы. Когда я работал с PostgreSQL, это было так же просто, как ALTER TABLE main.metrics_table DROP COLUMN metric_1; Я просм…

31 янв '19 в 09:15

1 ответ

Таблица данных Delta и Hive Transactional Table

Я видел из двух источников, что сейчас вы не можете каким-либо образом взаимодействовать с транзакционными таблицами HIVE от Spark. Улей КИСЛОТА Таблицы транзакций Hive не читаются искрой Я вижу, Databricks выпустил транзакционную функцию под назван…

apache-spark hive databricks delta-lake

12 дек '18 в 22:27

2 ответа

Как явные разделы таблиц в Databricks влияют на производительность записи?

У нас есть следующий сценарий: У нас есть существующая таблица, содержащая ок. 15 миллиардов записей. Это не было явно разделено на создание. Мы создаем копию этой таблицы с разделами, надеясь на более быстрое время чтения для определенных типов зап…

apache-spark amazon-s3 apache-spark-sql hive databricks delta-lake

23 фев '19 в 02:32

0 ответов

Создание таблицы с использованием Apache Spark в формате delta застряло

Я хочу создать таблицу, используя местоположение дельты, но мой процесс застрял. spark.sql("CREATE TABLE bronze_table USING DELTA LOCATION 'dbfs:/mnt/poc-databricks-folder/bronze/delta'") ... Запуск команды Процесс не завершен, я запустил это 24 час…

apache-spark databricks azure-databricks delta-lake

31 май '19 в 13:41

1 ответ

Можем ли мы использовать Scala для выполнения операций UPDATE и DELETE с дельта-таблицами Databricks?

Я могу создавать дельта-таблицы блоков данных с использованием scala и выполнять над ним операции добавления и перезаписи. Есть ли способ, которым я могу выполнять операции удаления и обновления, используя Scala, а не через среду выполнения Databric…

scala apache-spark delta-lake

29 май '19 в 13:39

1 ответ

Концепции Apache Spark + Delta Lake

У меня много сомнений по поводу Spark + Delta. 1) Блок данных предлагает 3 слоя (бронза, серебро, золото), но какой слой рекомендуется использовать для машинного обучения и почему? Я предполагаю, что они предлагают, чтобы данные были чистыми и готов…

apache-spark apache-kafka databricks data-warehouse delta-lake

19 май '19 в 19:20

4 ответа

Каков наилучший способ очистки и воссоздания таблицы данных дельтабрик?

Я пытаюсь очистить и воссоздать дельта-таблицу блоков данных для интеграционных тестов. Я хочу запустить тесты на агенте devops, поэтому я использую JDBC (драйвер Simba), но он говорит, что тип оператора "DELETE" не поддерживается. Когда я очищаю ба…

databricks azure-databricks delta-lake

04 апр '19 в 10:28

1 ответ

Где дельтабрик данных хранит свои метаданные?

Hive хранит метаданные. Я внешняя база данных, как SQL-сервер. Подобно тому, где в дельте блоков данных хранятся данные метаданных?

pyspark metadata azure-databricks delta-lake delta

23 апр '19 в 08:41

0 ответов

Является ли это лучшим методом для загрузки и объединения данных в существующую таблицу дельта на кирпичи данных?

Я новичок в использовании Databricks и пытаюсь проверить правильность непрерывной загрузки почасового файла в основной файл, который будет использоваться для отчетов. Каждый почасовой файл занимает примерно 3-400 ГБ и содержит ~1-1.3b записей. Я хот…

apache-spark apache-spark-sql azure-databricks delta-lake

02 май '19 в 15:20

1 ответ

Блоки данных - ошибка записи из DataFrame в местоположение Delta

Я хотел изменить имя столбца таблицы дельта Databricks. Итак, я сделал следующее: // Read old table data val old_data_DF = spark.read.format("delta") .load("dbfs:/mnt/main/sales") // Created a new DF with a renamed column val new_data_DF = old_data_…

scala apache-spark databricks delta-lake

06 май '19 в 14:14

3 ответа

Блоки данных - Как изменить раздел существующей таблицы Delta?

У меня есть таблица в дельте Databricks, которая разделена на transaction_date, Я хочу изменить столбец раздела на view_date, Я попытался удалить таблицу, а затем создать ее с новым столбцом раздела, используя PARTITIONED BY (view_date), Однако моя …

databricks delta-lake

04 мар '19 в 18:12

1 ответ

В чем разница между очередями таблиц, использующих формат Delta с Pyspark-SQL, и Pyspark?

Я запрашиваю таблицы, но у меня разные результаты, используя два способа, я хотел бы понять причину. Я создал таблицу, используя местоположение Delta. Я хочу запросить данные, которые я сохранил в этом месте. Я использую Amazon S3. Я создал таблицу …

python apache-spark pyspark databricks delta-lake

07 июн '19 в 18:01

0 ответов

Как остановить одновременную запись во внешнюю таблицу Delta Lake?

Общая таблица EXTERNAL, такая как Oracle, не допускает операции вставки / обновления. Но Databricks EXTERNAL Delta Table разрешает операцию обновления / вставки. Таким образом, я могу видеть недостаток, или в любом случае, чтобы остановить это? Прим…

azure-databricks delta-lake

16 июн '19 в 17:49

0 ответов

Не удается найти / получить доступ к сохраненным таблицам в потоке foreach

Я пытаюсь сохранить данные из данных в таблицу def SaveData(row): ... # read csv string df = spark.read \ .option("header", True) \ .option("delimiter","|") \ .option("quote", "\"") \ .option("nullValue", "\\N") \ .schema(schemaMapping) \ .csv(csvDa…

pyspark azure-databricks delta-lake

26 июн '19 в 04:04

1 ответ

Загрузка данных в озеро дельты из хранилища лазурной капли

Я пытаюсь загрузить данные в озеро дельты из хранилища голубых блобов. Я использую приведенный ниже фрагмент кода storage_account_name = "xxxxxxxxdev" storage_account_access_key = "xxxxxxxxxxxxxxxxxxxxx" file_location = "wasbs: //bicc-hdspk-eus-qc@x…

python-3.x pyspark azure-blob-storage delta-lake

29 июн '19 в 14:49

1 ответ

Ошибка контрольной суммы блоков данных при записи в файл

Я выполняю работу в 9 узлах. Все они собираются записать некоторую информацию в файлы, делая простые записи, как показано ниже: dfLogging.coalesce(1).write.format('delta').mode('append').save('/dbfs/' + loggingLocation) Однако я получаю это исключен…

apache-spark pyspark error-handling azure-databricks delta-lake

12 июл '19 в 22:30

0 ответов

Присоединяйтесь к потоковому потоку, оставляя внешнее объединение сомнений с помощью Spark структурированной потоковой передачи

У меня нет четких понятий о структурированной потоковой передаче. У меня есть 5 потоков данных в виде неограниченных таблиц, мне нужно выполнить некоторую левую операцию внешнего соединения между ними и записать результат в другой поток данных. Напр…

apache-spark apache-spark-sql databricks spark-structured-streaming delta-lake

25 июл '19 в 11:37

0 ответов

Как консолидировать поток, используя Spark Structured Streaming?

Мне нужно распространять обновления в мои потоки на основе потока только-добавления. Например: Только добавляемый поток | Column Name | Column Timestamp | Column Value | | Mark | 2019:08:27 13:00 | X | | ... | ... | ... | | Tom | 2019:09:27 13:00 | …

apache-spark pyspark spark-structured-streaming delta-lake

29 июл '19 в 13:31

2 ответа

Откат Дельта-Лейк

Нужен элегантный способ отката Delta Lake до предыдущей версии. Мой текущий подход указан ниже: import io.delta.tables._ val deltaTable = DeltaTable.forPath(spark, testFolder) spark.read.format("delta") .option("versionAsOf", 0) .load(testFolder) .w…

apache-spark databricks rollback delta-lake

27 авг '19 в 01:53

1 ответ

NoneJava .lang.NoClassDefFoundError: org/apache/spark/sql/ катализатора / планы / логический /AnalysisHelper при записи дельта-озера в хранилище s3

Я пытался преобразовать какой-нибудь файл рассола в s3 в дельта-лейк. То, как я это сделал, использует boto для загрузки данных и преобразования в искровой dataframe, а затем использует data.write.format('delta'). Save(s3_path) Но когда я пытался со…

apache-spark amazon-s3 delta-lake

03 июн '19 в 17:57