Искробезопасная дедупликация RDD для увеличения RDD
У меня есть датафрейм, загруженный с диска
df_ = sqlContext.read.json("/Users/spark_stats/test.json")
Он содержит 500 тысяч строк.
Мой сценарий отлично работает на этом размере, но я хочу проверить его, например, на строках 5M, есть ли способ дублировать df 9 раз? (для меня не важно иметь дубликаты в df)
я уже использую union, но он действительно слишком медленный (так как я думаю, что он продолжает читать с диска каждый раз)
df = df_
for i in range(9):
df = df.union(df_)
У вас есть идея о чистом способе сделать это?
Спасибо
1 ответ
Вы можете использовать взорваться. Он должен только читать с сырого диска один раз:
from pyspark.sql.types import *
from pyspark.sql.functions import *
schema = StructType([StructField("f1", StringType()), StructField("f2", StringType())])
data = [("a", "b"), ("c", "d")]
rdd = sc.parallelize(data)
df = sqlContext.createDataFrame(rdd, schema)
# Create an array with as many values as times you want to duplicate the rows
dups_array = [lit(i) for i in xrange(9)]
duplicated = df.withColumn("duplicate", array(*dups_array)) \
.withColumn("duplicate", explode("duplicate")) \
.drop("duplicate")