Databricks: разница между dbfs:/ vs file:/
Я пытаюсь понять, как Databricks хранит файлы, и я немного не уверен, в чем разница между dbfs: / и file: / (см. Изображение ниже)
Из того, что я смог вывести отсюда, file: / кажется областью, куда загружаются внешние файлы, загруженные через curl / wget, по следующему пути к папке:
%fs ls "file:/databricks/driver"
Но что такое file: / на самом деле и почему он существует и чем он отличается от dbfs:/?
Для справки, я использую бесплатную версию Databricks.
1 ответ
Версия сообщества Databricks размещена на веб-сервисах Amazon.
Когда вы создаете кластер в версии сообщества databricks, за кулисами создается виртуальная машина (экземпляр aws ec2) в серверной части, которая выполняет роль узла драйвера для запуска ваших программ через ноутбуки.
Служба управления кластером. Сервис будет запускать виртуальные машины экземпляров Amazon EC2 с уже настроенными узлами Spark. Бесплатный кластер памяти 15 ГБ для Community Edition и почасовая оплата за узел для обычной версии.
%fs ls "file:/"
возвращает папки, доступные в экземпляре aws ec2 виртуальной машины), который запущен в бэкэнде в облаке aws.
%fs ls
возвращает файловую систему Databricks (DBFS) - это распределенная файловая система, подключенная к рабочему пространству Databricks и доступная в кластерах Databricks. DBFS - это абстракция поверх масштабируемого объектного хранилища, то есть хранилища aws S3.