Как загрузить многораздельные файлы hadoop из хранилища BLOB-объектов Azure
Я использую HDInsight на Azure. Я вывел некоторые кадры данных Spark из Spark в формат CSV в хранилище BLOB-объектов Azure. Я хочу скачать их как отдельные файлы CSV.
Spark хранит их в виде пустых файлов FOO.csv и каталога, также называемого FOO.csv/, который содержит CSV-разделы данных.
Скриншоты:
[
На головном узле кластера HDInsight я могу объединить файлы локально, используя
$ hdfs dfs -getmerge wasb://xxxxxxxxxxxxx/salga2hf4da115242.csv salga2hf4da115242.csv
Но для этого требуется работающий кластер hadoop. Я хочу получить эти данные в любом месте с помощью интерфейса командной строки Azure.
Я попробовал это:
$ azure storage blob download cat-vectors-ru salga2hf4da115242.csv salga2hf4da115242.csv
Но это только загрузило 0-байтовый файл в верхнем уровне контейнера.
Как я могу загрузить все данные с помощью интерфейса командной строки Azure? Возможно ли объединение в Azure CLI?