Как работать с небольшой частью большого файла данных в спарк?

Question

Как работать с небольшой частью большого файла данных в спарк?

У меня есть большой файл данных, загруженный в Spark, но я хочу поработать над небольшой его частью, чтобы выполнить анализ, есть ли способ сделать это? Я пытался сделать перераспределение, но это принесло много перестановок. Есть ли хороший способ обработки единственного небольшого фрагмента большого файла, загруженного в Spark?

0

scala apache-spark random rdd sample-data

Источник

user7259113 15 мар '17 в 05:05

2 ответа

Решение

Вы можете использовать любой из следующих RDD API:

yourRDD.filter(on some condition)
yourRDD.sample(<with replacement>,<fraction of data>,<random seed>)

Пример: yourRDD.sample(false, 0.3, System.currentTimeMillis().toInt)

Если вам нужна любая случайная часть данных, я предлагаю вам использовать второй метод. Или, если вам нужна часть данных, удовлетворяющая некоторому условию, используйте первое.

2

Источник

user6637998 15 мар '17 в 06:58

Другие вопросы по тегам scala apache-spark random rdd sample-data

user1592191 15 мар '17 в 06:51 2017-03-15 06:51 · Accepted Answer · 2017-03-15 06:51

Короче
Ты можешь использовать sample() или же randomSplit() преобразования на СДР

образец()

/**
  * Return a sampled subset of this RDD.
  *
  * @param withReplacement can elements be sampled multiple times
  * @param fraction expected size of the sample as a fraction of this RDD's size
  *  without replacement: probability that each element is chosen; fraction must be [0, 1]
  *  with replacement: expected number of times each element is chosen; fraction must be 
  *  greater than or equal to 0
  * @param seed seed for the random number generator
  *
  * @note This is NOT guaranteed to provide exactly the fraction of the count
  * of the given [[RDD]].
  */

  def sample(
      withReplacement: Boolean,
      fraction: Double,
      seed: Long = Utils.random.nextLong): RDD[T]

Пример:

val sampleWithoutReplacement = rdd.sample(false, 0.2, 2)

randomSplit ()

/**
  * Randomly splits this RDD with the provided weights.
  *
  * @param weights weights for splits, will be normalized if they don't sum to 1
  * @param seed random seed
  *
  * @return split RDDs in an array
  */

def randomSplit(
   weights: Array[Double],
   seed: Long = Utils.random.nextLong): Array[RDD[T]]

Пример:

val rddParts = randomSplit(Array(0.8, 0.2)) //Which splits RDD into 80-20 ratio