Отличие h2o.ai от SparkMLlib с точки зрения алгоритма машинного обучения

В настоящее время я делаю опрос по библиотеке машинного обучения с использованием h2o.ai а также SparkMLlib, Я определил, что большее количество алгоритмов ML поддерживается h2o.ai библиотека по сравнению с SparkMLlib и разделение фрейма данных Spark на обучающий и тестовый набор представляется затруднительным (необходимо преобразовать фрейм искровых данных в фрейм данных R/ H2O, который также требует много времени / ресурсов).

Каковы другие преимущества / недостатки использования h2o.ai библиотека окончена SparkMLib или наоборот? Я фокусируюсь h2o.ai а также SparkMLlib в реализацию на основе R (SparkR). Итак, датафреймы для H2O (as.h2o) и SparkMLlib (as.DataFrame) разные.

1 ответ

Решение

Частично я выясняю ответ, используя следующие ссылки: http://datasocial.onsocialengine.com/post/4171645/spark-mllib-or-h2o

Подробный сравнительный анализ представлен здесь: https://github.com/szilard/benchm-ml

Слайды результатов тестирования: https://speakerdeck.com/szilard/benchmarking-machine-learning-tools-for-scalability-speed-and-accuracy-la-ml-meetup-at-eharmony-june-2015

Видео результатов тестирования: https://vimeopro.com/eharmony/talks/video/132838730

Технический отчет по анализу библиотеки машинного обучения: https://github.com/chauhansaurabhb/Analysis-of-H2O-vs-SparkMLlib/blob/master/MLLibrary.pdf

Другие вопросы по тегам