RHadoop против Apache Mahout

Question

RHadoop против Apache Mahout

Я хочу начать разработку системы рекомендаций для больших данных, скажем, 2 ГБ данных в день. Для этого, между Rhadoop и Apache Mahout, какой из них предпочтительнее?

Пожалуйста, ответьте на этот вопрос с разных сторон, таких как наличие кодов, скорость и т. Д.

0

mahout mahout-recommender rhadoop analytics-for-hadoop

Источник

user4704857 30 май '16 в 06:21

1 ответ

Другие вопросы по тегам mahout mahout-recommender rhadoop analytics-for-hadoop

user1162751 30 май '16 в 19:02 2016-05-30 19:02 · Answer 1 · 2016-05-30 19:02

Если вы знаете, что R и ваши данные не так уж велики, попробуйте SparkR, но большая часть массивной коллекции пакетов R плохо интегрируется с распределенными данными Spark.

Если у вас есть большие данные, а с R-подобным Scala API все в порядке, тогда Mahout лучше. Вы можете заставить свою математику работать с образцами данных, и тот же код автоматически масштабируется до размера производства.