Отличие h2o.ai от SparkMLlib с точки зрения алгоритма машинного обучения
В настоящее время я делаю опрос по библиотеке машинного обучения с использованием h2o.ai
а также SparkMLlib
, Я определил, что большее количество алгоритмов ML поддерживается h2o.ai
библиотека по сравнению с SparkMLlib
и разделение фрейма данных Spark на обучающий и тестовый набор представляется затруднительным (необходимо преобразовать фрейм искровых данных в фрейм данных R/ H2O, который также требует много времени / ресурсов).
Каковы другие преимущества / недостатки использования h2o.ai
библиотека окончена SparkMLib
или наоборот? Я фокусируюсь h2o.ai
а также SparkMLlib
в реализацию на основе R (SparkR). Итак, датафреймы для H2O (as.h2o)
и SparkMLlib (as.DataFrame)
разные.
1 ответ
Частично я выясняю ответ, используя следующие ссылки: http://datasocial.onsocialengine.com/post/4171645/spark-mllib-or-h2o
Подробный сравнительный анализ представлен здесь: https://github.com/szilard/benchm-ml
Слайды результатов тестирования: https://speakerdeck.com/szilard/benchmarking-machine-learning-tools-for-scalability-speed-and-accuracy-la-ml-meetup-at-eharmony-june-2015
Видео результатов тестирования: https://vimeopro.com/eharmony/talks/video/132838730
Технический отчет по анализу библиотеки машинного обучения: https://github.com/chauhansaurabhb/Analysis-of-H2O-vs-SparkMLlib/blob/master/MLLibrary.pdf