Как выбрать аналитику озера данных Azure и блоки данных Azure

Аналитика озера данных Azure и блоки данных Azure могут использоваться для пакетной обработки. Может ли кто-нибудь помочь мне понять, когда выбрать один из других?

1 ответ

Решение

По моему скромному мнению, многое зависит от существующих навыков. Если у вас есть команда, имеющая опыт работы с Spark, Java, Python, r или Scala, то Databricks вам подойдет. Если, с другой стороны, у вас есть команда с существующими навыками SQL и C#, то кривая обучения для них с помощью U-SQL будет менее крутой.

Кроме того, есть другие вопросы, которые могут устранить различия:

  • Вам требуется взаимодействие в реальном времени (блоки данных) или аналитика в пакетном режиме (оба)? Несмотря на то, что есть элемент обратной связи для интерактивности в реальном времени для U-SQL, пожалуйста, проголосуйте.
  • Вам нужна модель с оплатой по факту (U-SQL) или кластеры с автоматическим завершением по истечении определенного периода (блоки данных)?
  • Вам нравится работать в блокноте (Databricks) или методе Visual Studio / VSCode / Powershell / .net sdk (U-SQL)?
  • Вы хотите использовать библиотеки Spark, такие как GraphX ​​(Databricks)?
  • Хотите ли вы запускать и масштабировать любую среду выполнения (U-SQL)? Смотрите здесь для более подробной информации.
  • Вы хотите локальный эмулятор разработки (U-SQL)? Эмулятор U-SQL в Visual Studio прост, т.е. вы разрабатываете свой код для локальных дисков в той же структуре, что и ваше озеро (бесплатно), а затем просто щелкаете по раскрывающемуся списку в Visual Studio для запуска в облаке. Хотя я думаю, что у вас может быть локальная среда Spark, я не уверен, что локальный (и отключенный) опыт разработки для Databricks.

ОБНОВЛЕНИЕ Октябрь 2018 года. Насколько мне известно, U-SQL в настоящее время не поддерживает ADLS Gen 2, что считается его преимуществом (рад, что его исправили). Я буду обновлять пост, если и когда эта поддержка будет добавлена.

НТН

У Databricks больше языковых опций, что позволяет профессионалам с разными навыками работать с данными. Также с помощью блоков данных вы можете запускать задания с высокопроизводительными кластерами в памяти.

В проекте мы больше используем озеро данных в качестве хранилища и выполняем все работы (ETL, аналитика) с помощью блокнота данных. Хранение данных в озере данных дешевле.

Вернемся к вашим вопросам, если сложная пакетная работа и другой тип профессионала будут работать на данных, которые вы. Вы можете выбрать архитектуру Azure Data Lake + Databricks. В противном случае Azure Data Lake удовлетворит ваши потребности.

Взгляните на эти 2 статьи, это поможет. https://databricks.com/glossary/data-lake https://visualbi.com/blogs/microsoft/azure/etl-azure-databricks-vs-data-lake-analytics/

Другие вопросы по тегам