Локальный экземпляр Databricks для разработки

В настоящее время я работаю в небольшой команде, которая разрабатывает решение на основе Databricks. На данный момент мы достаточно малы, чтобы работать с облачными экземплярами Databricks. По мере роста группы это будет непрактично.

Существует ли "локальная" установка Databricks, которую можно установить в целях разработки (она не должна быть масштабируемой версией, но должна быть по существу полностью функциональной)? Другими словами, есть ли способ, которым каждый разработчик может создать свой собственный экземпляр разработки Databricks на своем локальном компьютере?

Есть ли другой способ предоставить каждому разработчику отдельную среду Databricks?

2 ответа

Databricks как платформа, развертываемая в облаке, использует множество облачных технологий при развертывании. Например, Auto Loader постепенно загружает новые файлы данных по мере их поступления в AWS с помощью EventBridge, SNS и S3, в то время как Azure использует технологии EventHub, Notification Hubs и ADLS. Они стремятся создать единый внешний вид в AWS, Azure и GCP, но могут сделать это только в облаке.

Для локального развертывания вы можете использовать Apache Spark и MlFlow и создать аналогичный интерфейс, но интерфейс ноутбука не является открытым исходным кодом. Рабочий процесс Databricks является проприетарным, хотя Databricks имеет открытый исходный код многих своих технологий, таких как Delta Lake. Некоторым может быть достаточно локального Spark, MlFlow, а затем экономно использовать облако, но бесшовный рабочий процесс, предлагаемый Databricks, сложно воспроизвести за пределами ведущих поставщиков облачных услуг.

К сожалению, локальный экземпляр блоков данных недоступен.

Единственный способ использовать Databricks - через cloud только.

Databricks можно получить по адресу Microsoft и AWS.

Если вы хотите протестировать блоки данных, вы можете использовать Databricks community Editionчто бесплатно. (Если вы получаете что-то бесплатно, то определенно будут некоторые ограничения).

Что такое Databricks Community Edition?

Databricks Community Edition - это бесплатная версия нашей облачной платформы больших данных. Его пользователи могут получить доступ к микрокластеру, а также к диспетчеру кластера и среде ноутбука. Все пользователи могут совместно использовать свои записные книжки и размещать их бесплатно с помощью Databricks. Мы надеемся, что это позволит каждому создавать новый захватывающий контент, который принесет пользу всему сообществу Apache Spark™.

Ограничение в версии для сообщества:

  • Только один кластер с ограничением до 15 ГБ и только драйверный узел без рабочих узлов.
  • Базовые записные книжки без совместной работы
  • Ограничено максимум 3 пользователями
  • Общественная среда, где можно поделиться своей работой

Для получения дополнительной информации, попробуйте Databricks и Databricks Community Edition - FAQ.

Другие вопросы по тегам