Pyspark параллельные вычисления_FPgrowth
Я использую FPgrowth.train FROM pyspark.mllib.fpm для решения проблемы правила ассоциации и хотел бы сократить время обучения этого кода, используя преимущества параллельных вычислений в Spark.
itemsets= [["a", "b", "c"], ["a", "b", "d", "e"], ["a", "c", "e"],["a", "c", "f"]]
Data_rdd = sc.parallelize(itemsets, rdd_numPartitions)
model = FPGrowth.train(Data_rdd, inSupport=min_supp,numPartitions=numPartitions)
Пока что изменение rdd_numPartitions на самом деле не повлияло на время обучения вышеприведенного кода или numPartitions.
Я не уверен, что мне следовало сделать что-то еще раньше или я что-то упустил.
Спасибо