Java/Spark: почему я получаю разные результаты в локальном и кластерном режиме?

Question

Java/Spark: почему я получаю разные результаты в локальном и кластерном режиме?

У rdd есть ключи и идентификаторы транзакций этих ключей (напр. ([яблоко, клубника, банан],[1,2,3,4,5]))

Я хотел бы найти пересечение идентификаторов этой транзакции, которые имеют те же ключи. Я попробовал код ниже. Он работает в локальном режиме, но в кластерном режиме он дает неправильные результаты, когда он в цикле.

JavaPairRDD<List<String>, List<Long>> reduced = rdd.reduceByKey((x,y)->Lists.newArrayList(Sets.intersection(Sets.newHashSet(x), Sets.newHashSet(y))));

Буду очень признателен, если кто-нибудь сможет мне объяснить, что я делаю не так.

0

java apache-spark rdd local cluster-mode

Источник

user9598196 21 май '18 в 15:42

0 ответов

Другие вопросы по тегам java apache-spark rdd local cluster-mode