Java/Spark: почему я получаю разные результаты в локальном и кластерном режиме?
У rdd есть ключи и идентификаторы транзакций этих ключей (напр. ([яблоко, клубника, банан],[1,2,3,4,5]))
Я хотел бы найти пересечение идентификаторов этой транзакции, которые имеют те же ключи. Я попробовал код ниже. Он работает в локальном режиме, но в кластерном режиме он дает неправильные результаты, когда он в цикле.
JavaPairRDD<List<String>, List<Long>> reduced = rdd.reduceByKey((x,y)->Lists.newArrayList(Sets.intersection(Sets.newHashSet(x), Sets.newHashSet(y))));
Буду очень признателен, если кто-нибудь сможет мне объяснить, что я делаю не так.