Загрузка данных в озеро дельты из хранилища лазурной капли

Я пытаюсь загрузить данные в озеро дельты из хранилища голубых блобов. Я использую приведенный ниже фрагмент кода

storage_account_name = "xxxxxxxxdev" storage_account_access_key = "xxxxxxxxxxxxxxxxxxxxx"

file_location = "wasbs: //bicc-hdspk-eus-qc@xxxxxxxxdev.blob.core.windows.net/FSHC/DIM/FSHC_DIM_SBU"

file_type = "csv"

spark.conf.set ("fs.azure.account.key." + storage_account_name + "blob.core.windows.net", storage_account_access_key)

df = spark.read.format (file_type).option ("header", "true"). option ("inferSchema", "true"). option ("delimiter", '|'). load (file_location)

dx = df.write.format ("паркет")

До этого этапа он работает, и я также могу загрузить его в таблицу блоков данных.

dx.write.format ("дельта"). сохранить (file_location)

ошибка: AttributeError: у объекта "DataFrameWriter" нет атрибута "запись"

PS - Я передаю местоположение файла неправильно в операторе записи? Если это причина, то каков путь к файлу для delta lake.

Пожалуйста, вернитесь ко мне, если потребуется дополнительная информация.

Спасибо, Абхируп

python-3.x pyspark azure-blob-storage delta-lake

Источник

user10794557 29 июн '19 в 14:49

1 ответ

Dx - это создатель данных, поэтому то, что вы пытаетесь сделать, не имеет смысла. Вы могли бы сделать это:

df = spark.read.format(file_type).option("header","true").option("inferSchema", "true").option("delimiter", '|').load(file_location)

df.write.format("parquet").save()
df.write.format("delta").save()

Источник

user5318711 29 июн '19 в 23:28

Другие вопросы по тегам python-3.x pyspark azure-blob-storage delta-lake