RHadoop против Apache Mahout
Я хочу начать разработку системы рекомендаций для больших данных, скажем, 2 ГБ данных в день. Для этого, между Rhadoop и Apache Mahout, какой из них предпочтительнее?
Пожалуйста, ответьте на этот вопрос с разных сторон, таких как наличие кодов, скорость и т. Д.
1 ответ
Если вы знаете, что R и ваши данные не так уж велики, попробуйте SparkR, но большая часть массивной коллекции пакетов R плохо интегрируется с распределенными данными Spark.
Если у вас есть большие данные, а с R-подобным Scala API все в порядке, тогда Mahout лучше. Вы можете заставить свою математику работать с образцами данных, и тот же код автоматически масштабируется до размера производства.