Pyspark параллельные вычисления_FPgrowth

Я использую FPgrowth.train FROM pyspark.mllib.fpm для решения проблемы правила ассоциации и хотел бы сократить время обучения этого кода, используя преимущества параллельных вычислений в Spark.

itemsets= [["a", "b", "c"], ["a", "b", "d", "e"], ["a", "c", "e"],["a", "c", "f"]]
Data_rdd = sc.parallelize(itemsets, rdd_numPartitions) 
model = FPGrowth.train(Data_rdd, inSupport=min_supp,numPartitions=numPartitions)

Пока что изменение rdd_numPartitions на самом деле не повлияло на время обучения вышеприведенного кода или numPartitions.

Я не уверен, что мне следовало сделать что-то еще раньше или я что-то упустил.

Спасибо

Источник

user10392393 11 окт '18 в 12:02

0 ответов

Другие вопросы по тегам apache-spark hadoop pyspark parallel-processing fpgrowth