Как загрузить многораздельные файлы hadoop из хранилища BLOB-объектов Azure

Question

Как загрузить многораздельные файлы hadoop из хранилища BLOB-объектов Azure

Я использую HDInsight на Azure. Я вывел некоторые кадры данных Spark из Spark в формат CSV в хранилище BLOB-объектов Azure. Я хочу скачать их как отдельные файлы CSV.

Spark хранит их в виде пустых файлов FOO.csv и каталога, также называемого FOO.csv/, который содержит CSV-разделы данных.

Скриншоты:

[ Искровой выход [1

На головном узле кластера HDInsight я могу объединить файлы локально, используя

$ hdfs dfs -getmerge wasb://xxxxxxxxxxxxx/salga2hf4da115242.csv salga2hf4da115242.csv

Но для этого требуется работающий кластер hadoop. Я хочу получить эти данные в любом месте с помощью интерфейса командной строки Azure.

Я попробовал это:

$ azure storage blob download cat-vectors-ru salga2hf4da115242.csv salga2hf4da115242.csv

Но это только загрузило 0-байтовый файл в верхнем уровне контейнера.

Как я могу загрузить все данные с помощью интерфейса командной строки Azure? Возможно ли объединение в Azure CLI?

2

azure csv apache-spark azure-storage-blobs azure-cli

Источник

user1754780 24 фев '17 в 15:35

0 ответов

Другие вопросы по тегам azure csv apache-spark azure-storage-blobs azure-cli