Как работать с небольшой частью большого файла данных в спарк?
У меня есть большой файл данных, загруженный в Spark, но я хочу поработать над небольшой его частью, чтобы выполнить анализ, есть ли способ сделать это? Я пытался сделать перераспределение, но это принесло много перестановок. Есть ли хороший способ обработки единственного небольшого фрагмента большого файла, загруженного в Spark?
2 ответа
Решение
Короче
Ты можешь использовать
sample()
или жеrandomSplit()
преобразования на СДР
образец()
/**
* Return a sampled subset of this RDD.
*
* @param withReplacement can elements be sampled multiple times
* @param fraction expected size of the sample as a fraction of this RDD's size
* without replacement: probability that each element is chosen; fraction must be [0, 1]
* with replacement: expected number of times each element is chosen; fraction must be
* greater than or equal to 0
* @param seed seed for the random number generator
*
* @note This is NOT guaranteed to provide exactly the fraction of the count
* of the given [[RDD]].
*/
def sample(
withReplacement: Boolean,
fraction: Double,
seed: Long = Utils.random.nextLong): RDD[T]
Пример:
val sampleWithoutReplacement = rdd.sample(false, 0.2, 2)
randomSplit ()
/**
* Randomly splits this RDD with the provided weights.
*
* @param weights weights for splits, will be normalized if they don't sum to 1
* @param seed random seed
*
* @return split RDDs in an array
*/
def randomSplit(
weights: Array[Double],
seed: Long = Utils.random.nextLong): Array[RDD[T]]
Пример:
val rddParts = randomSplit(Array(0.8, 0.2)) //Which splits RDD into 80-20 ratio
Вы можете использовать любой из следующих RDD
API:
yourRDD.filter(on some condition)
yourRDD.sample(<with replacement>,<fraction of data>,<random seed>)
Пример: yourRDD.sample(false, 0.3, System.currentTimeMillis().toInt)
Если вам нужна любая случайная часть данных, я предлагаю вам использовать второй метод. Или, если вам нужна часть данных, удовлетворяющая некоторому условию, используйте первое.