Каков наилучший способ получить хранилище Azure BLOB?

Я работаю со Scala и Spark, и мне нужно получить доступ к хранилищу BLOB-объектов Azure и получить его список файлов. Что является лучшим способом сделать это, зная версию spark 2.11.

1 ответ

Решение
  1. Для Spark, работающей на локальном компьютере, существует официальный блог, в котором рассказывается, как получить доступ к хранилищу BLOB-объектов Azure из Spark. Ключ заключается в том, что вам необходимо настроить учетную запись хранилища Azure в качестве HDFS-совместимого хранилища в файле core-site.xml и добавить два jar-файла hadoop-azure и azure-storage в ваш путь к классам для доступа к HDFS через протокол wasb[s]. Вы можете обратиться к официальному руководству, чтобы узнать HDFS-совместимое хранилище с wasb, и к блогу о конфигурации для HDInsight более подробно.
  2. Для Spark, работающего в Azure, разница заключается только в доступе к HDFS с помощью wasb, другие приготовления были сделаны Azure при создании кластера HDInsight с Spark. Метод для вывода списка файлов - listFiles или wholeTextFiles из SparkContext
Другие вопросы по тегам