Когда мне следует использовать записные книжки Azure ML или Azure Databricks? На мой взгляд, оба являются продуктами конкурентов.
Довольно очевидный вопрос. В каких случаях следует использовать записные книжки для машинного обучения Azure VS Azure Databricks? Я чувствую, что эти два продукта во многом пересекаются, и один определенно продается лучше, чем другой.
В основном я ищу информацию о размерах наборов данных и типичном рабочем процессе. Зачем мне использовать Databricks поверх AzureML, если у меня нет рабочего процесса, ориентированного на Spark?
Спасибо!
1 ответ
@Nethim, с моей точки зрения, это главное отличие:
Распространение данных:
- Блокноты Azure ML хороши, когда вы тренируетесь с ограниченным объемом данных на одной машине. Хотя Azure ML предоставляет обучающие кластеры, распределение данных между узлами должно обрабатываться в коде.
- Azure Databricks с его RDD предназначены для обработки данных, распределенных на нескольких узлах. Это выгодно, если размер ваших данных огромен. Azure Databricks - это перебор
Очистка данных: блоки данных могут изначально поддерживать множество форматов файлов, а запросы и очистка огромных наборов данных просты там, где это должно выполняться индивидуально в записных книжках AzureML. Это можно сделать с помощью ноутбуков AML, но очистку и запись в магазины придется выполнять.
- Обучение У обоих есть возможности, если обучение распределяется, Databricks предоставляет встроенные алгоритмы машинного обучения, которые могут воздействовать на фрагменты данных на этом узле и координировать свои действия с другими узлами. Хотя это можно сделать как в AzureMachineLearning, так и в Databricks с помощью tf,horovod и т. Д.,
В целом (только на мой взгляд), если набор данных небольшой, ноутбуки aml - это хорошо. Если размер данных огромен, то блоки данных Azure легко поддаются очистке данных и преобразованию форматов. Затем обучение может происходить на AML или блоках данных. кривая обучения, тогда как Azure ML может быть проще с Python и pandas.
Спасибо.