Есть ли способ с Apache Spark уменьшить количество элементов в RDD [принять как преобразование]

Question

Есть ли способ с Apache Spark уменьшить количество элементов в RDD [принять как преобразование]

Я работаю с Apache Spark для механизма обработки запросов. Проблема, с которой я недавно столкнулся, заключается в том, что я хочу ограничить количество элементов в rdd.

Я знаю, что в rdd есть функция take, которая может использоваться для получения только заданного числа элементов из rdd. Однако после применения этой функции результат не будет случайным.

Важно, что даже если мы применим эту функциональность, rdd должен остаться (как преобразование)

Итак, сейчас я следую

public JavaRDD<Map<String,Object>> limitRDD(JavaRDD<Map<String,Object>> rdd, JavaSparkContext context, int number){
context.parallelize(rdd.take(number));
return rdd;

Я думаю, что это огромная трата времени. Однако я не могу придумать, как использовать преобразования, такие как карта, фильтр, для реализации этой функциональности.

Есть ли способ добиться этого без того, что я сделал здесь?

Спасибо

0

apache-spark action transformation take

Источник

user4980626 02 дек '15 в 05:38

1 ответ

Другие вопросы по тегам apache-spark action transformation take

user5319985 02 дек '15 в 05:52 2015-12-02 05:52 · Answer 1 · 2015-12-02 05:52

Я думаю sample может быть функция, которую вы хотите.

0

Источник

user5319985 02 дек '15 в 05:52