Databricks: разница между dbfs:/ vs file:/

Я пытаюсь понять, как Databricks хранит файлы, и я немного не уверен, в чем разница между dbfs: / и file: / (см. Изображение ниже)

Из того, что я смог вывести отсюда, file: / кажется областью, куда загружаются внешние файлы, загруженные через curl / wget, по следующему пути к папке:

%fs ls "file:/databricks/driver"

Но что такое file: / на самом деле и почему он существует и чем он отличается от dbfs:/?

Для справки, я использую бесплатную версию Databricks.

1 ответ

Версия сообщества Databricks размещена на веб-сервисах Amazon.

Когда вы создаете кластер в версии сообщества databricks, за кулисами создается виртуальная машина (экземпляр aws ec2) в серверной части, которая выполняет роль узла драйвера для запуска ваших программ через ноутбуки.

Служба управления кластером. Сервис будет запускать виртуальные машины экземпляров Amazon EC2 с уже настроенными узлами Spark. Бесплатный кластер памяти 15 ГБ для Community Edition и почасовая оплата за узел для обычной версии.

%fs ls "file:/" возвращает папки, доступные в экземпляре aws ec2 виртуальной машины), который запущен в бэкэнде в облаке aws.

%fs ls возвращает файловую систему Databricks (DBFS) - это распределенная файловая система, подключенная к рабочему пространству Databricks и доступная в кластерах Databricks. DBFS - это абстракция поверх масштабируемого объектного хранилища, то есть хранилища aws S3.

Другие вопросы по тегам