Какие преимущества Sparking Water перед H20 Библиотека машинного обучения
Я понял, что Sparkling Water - это H20, выполняемый в среде Spark, и поэтому он может использовать Spark Engine (и все распределенные структуры Spark) для распределения вычислений, но с точки зрения производительности, которая является преимуществом, поскольку H2O уже является распределенным и масштабируемым библиотека для машинного обучения?
И более того, автономная версия H2O действительно способна управлять распределенной обработкой на кластере компьютеров?
1 ответ
Основное преимущество использования Sparkling Water по сравнению с обычной H2O заключается в том, что оно хорошо вписывается в существующий трубопровод Spark. Если вы еще не используете Spark, то лучше всего использовать обычную библиотеку H2O. H2O уже распределена, поэтому добавление Spark в уравнение не дает никакой дополнительной ценности с точки зрения распределенных вычислений.
H2O имеет много тех же компонентов, что и Spark, таких как распределенные кадры данных и общие вычисления в памяти. Так что да, H2O способна управлять распределенной обработкой по многоядерному или многоузловому кластеру компьютеров. Это именно то, что было задумано.