Разнесите массив данных в строки в искре

Question

Разнесите массив данных в строки в искре

У меня есть набор данных следующим образом:

FieldA    FieldB    ArrayField
1         A         {1,2,3}
2         B         {3,5}

Я хотел бы разбить данные на ArrayField, чтобы выходные данные выглядели следующим образом:

FieldA    FieldB    ExplodedField
1         A         1
1         A         2
1         A         3
2         B         3
2         B         5

Я хочу создать выходную строку для каждого элемента массива в ArrayField, сохраняя значения других полей.

Как бы вы реализовали это в Spark. Обратите внимание, что входной набор данных очень большой.

46

apache-spark pyspark

Источник

user1134753 08 июн '17 в 13:17

3 ответа

Решение

Вы можете использовать функцию разнесения. Ниже приведен простой пример для импорта вашего случая org.apache.spark.sql.functions._

import spark.implicits._

  val data = spark.sparkContext.parallelize(Seq(
    (1, "A", List(1,2,3)),
    (2, "B", List(3, 5))
  )).toDF("FieldA", "FieldB", "FieldC")

    data.withColumn("ExplodedField", explode($"FieldC")).drop("FieldC")

Надеюсь это поможет!

3

Источник

user6551426 08 июн '17 в 13:28

Взорваться делает именно то, что вы хотите. Docs:

http://spark.apache.org/docs/latest/api/python/pyspark.sql.html

Кроме того, вот пример из другого вопроса, использующего его:

/questions/38177490/iskrobezopasnaya-deduplikatsiya-rdd-dlya-uvelicheniya-rdd/38177507#38177507

2

Источник

user1461187 08 июн '17 в 13:28

Другие вопросы по тегам apache-spark pyspark

user647129 08 июн '17 в 13:27 2017-06-08 13:27 · Accepted Answer · 2017-06-08 13:27

Функция разнесения должна сделать это.

версия pyspark:

>>> df = spark.createDataFrame([(1, "A", [1,2,3]), (2, "B", [3,5])],["col1", "col2", "col3"])
>>> from pyspark.sql.functions import explode
>>> df.withColumn("col3", explode(df.col3)).show()
+----+----+----+
|col1|col2|col3|
+----+----+----+
|   1|   A|   1|
|   1|   A|   2|
|   1|   A|   3|
|   2|   B|   3|
|   2|   B|   5|
+----+----+----+

Scala версия

scala> val df = Seq((1, "A", Seq(1,2,3)), (2, "B", Seq(3,5))).toDF("col1", "col2", "col3")
df: org.apache.spark.sql.DataFrame = [col1: int, col2: string ... 1 more field]

scala> df.withColumn("col3", explode($"col3")).show()
+----+----+----+
|col1|col2|col3|
+----+----+----+
|   1|   A|   1|
|   1|   A|   2|
|   1|   A|   3|
|   2|   B|   3|
|   2|   B|   5|
+----+----+----+