Как выбрать аналитику озера данных Azure и блоки данных Azure
Аналитика озера данных Azure и блоки данных Azure могут использоваться для пакетной обработки. Может ли кто-нибудь помочь мне понять, когда выбрать один из других?
1 ответ
По моему скромному мнению, многое зависит от существующих навыков. Если у вас есть команда, имеющая опыт работы с Spark, Java, Python, r или Scala, то Databricks вам подойдет. Если, с другой стороны, у вас есть команда с существующими навыками SQL и C#, то кривая обучения для них с помощью U-SQL будет менее крутой.
Кроме того, есть другие вопросы, которые могут устранить различия:
- Вам требуется взаимодействие в реальном времени (блоки данных) или аналитика в пакетном режиме (оба)? Несмотря на то, что есть элемент обратной связи для интерактивности в реальном времени для U-SQL, пожалуйста, проголосуйте.
- Вам нужна модель с оплатой по факту (U-SQL) или кластеры с автоматическим завершением по истечении определенного периода (блоки данных)?
- Вам нравится работать в блокноте (Databricks) или методе Visual Studio / VSCode / Powershell / .net sdk (U-SQL)?
- Вы хотите использовать библиотеки Spark, такие как GraphX (Databricks)?
- Хотите ли вы запускать и масштабировать любую среду выполнения (U-SQL)? Смотрите здесь для более подробной информации.
- Вы хотите локальный эмулятор разработки (U-SQL)? Эмулятор U-SQL в Visual Studio прост, т.е. вы разрабатываете свой код для локальных дисков в той же структуре, что и ваше озеро (бесплатно), а затем просто щелкаете по раскрывающемуся списку в Visual Studio для запуска в облаке. Хотя я думаю, что у вас может быть локальная среда Spark, я не уверен, что локальный (и отключенный) опыт разработки для Databricks.
ОБНОВЛЕНИЕ Октябрь 2018 года. Насколько мне известно, U-SQL в настоящее время не поддерживает ADLS Gen 2, что считается его преимуществом (рад, что его исправили). Я буду обновлять пост, если и когда эта поддержка будет добавлена.
НТН
У Databricks больше языковых опций, что позволяет профессионалам с разными навыками работать с данными. Также с помощью блоков данных вы можете запускать задания с высокопроизводительными кластерами в памяти.
В проекте мы больше используем озеро данных в качестве хранилища и выполняем все работы (ETL, аналитика) с помощью блокнота данных. Хранение данных в озере данных дешевле.
Вернемся к вашим вопросам, если сложная пакетная работа и другой тип профессионала будут работать на данных, которые вы. Вы можете выбрать архитектуру Azure Data Lake + Databricks. В противном случае Azure Data Lake удовлетворит ваши потребности.
Взгляните на эти 2 статьи, это поможет. https://databricks.com/glossary/data-lake https://visualbi.com/blogs/microsoft/azure/etl-azure-databricks-vs-data-lake-analytics/