Есть ли способ с Apache Spark уменьшить количество элементов в RDD [принять как преобразование]
Я работаю с Apache Spark для механизма обработки запросов. Проблема, с которой я недавно столкнулся, заключается в том, что я хочу ограничить количество элементов в rdd.
Я знаю, что в rdd есть функция take, которая может использоваться для получения только заданного числа элементов из rdd. Однако после применения этой функции результат не будет случайным.
Важно, что даже если мы применим эту функциональность, rdd должен остаться (как преобразование)
Итак, сейчас я следую
public JavaRDD<Map<String,Object>> limitRDD(JavaRDD<Map<String,Object>> rdd, JavaSparkContext context, int number){
context.parallelize(rdd.take(number));
return rdd;
Я думаю, что это огромная трата времени. Однако я не могу придумать, как использовать преобразования, такие как карта, фильтр, для реализации этой функциональности.
Есть ли способ добиться этого без того, что я сделал здесь?
Спасибо