Фильтрует ли Spark перезагрузку данных?

Question

Фильтрует ли Spark перезагрузку данных?

Это основная часть моей действительно простой работы Spark...

def hBaseRDD = sc.newAPIHadoopRDD(config, TableInputFormat.class, ImmutableBytesWritable.class, Result.class)
println "${hBaseRDD.count()} records counted"
def filteredRDD = hBaseRDD.filter({ scala.Tuple2 result ->
    def val = result._2.getValue(family, qualifier)
    val ? new String(val) == 'twitter' : false
} as Function<Result, Boolean>)
println "${filteredRDD.count()} counted from twitter."
println "Done!"

В выводе spark-submit я заметил, что он дважды отправлялся в HBase. Первый раз было когда звонил рассчитывать на hBaseRDD а второй был, когда он вызвал фильтр для создания filteredRDD, Есть ли способ заставить его кешировать результаты newAPIHadoopRDD вызвать hBaseRDD, чтобы фильтр работал только с копией данных в памяти?

1

java apache-spark groovy

Источник

user284538 10 мар '15 в 19:13

1 ответ

Решение

Другие вопросы по тегам java apache-spark groovy

user764040 10 мар '15 в 19:44 2015-03-10 19:44 · Accepted Answer · 2015-03-10 19:44

hbaseRDD.cache() прежде чем считать сделаем свое дело.

Документы подробно описывают параметры: http://spark.apache.org/docs/1.2.0/programming-guide.html

1

Источник

user764040 10 мар '15 в 19:44