Конвертируйте JSON, используя PySpark и фрейм данных, чтобы элементы массива находились под root

Question

Конвертируйте JSON, используя PySpark и фрейм данных, чтобы элементы массива находились под root

Я хочу реорганизовать следующий JSON, чтобы элементы массива в docs были под root.

Пример ввода

{
  "response":{"docs":
      [{
        "column1":"dataA",
        "column2":"dataB"
      },  
      {
        "column1":"dataC",
        "column2":"dataD"
      }]
   }
}

Пример скрипта PySpark

from pyspark.sql import SQLContext
from pyspark import SparkContext, SparkConf


conf = SparkConf().setAppName("pyspark")
sc = SparkContext(conf=conf)

sqlContext = SQLContext(sc)
df = sqlContext.read.json("file:///.../input.json", multiLine=True)
new = df.select("response.docs")
new.printSchema()
new.write.mode("overwrite").format('json').save("file:///.../output.json")

Скрипт уже преобразует схему в следующую

root
 |-- docs: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- column1: string (nullable = true)
 |    |    |-- column2: string (nullable = true)

Тем не менее, это должно выглядеть как этот окончательный JSON

[
 {"column1":"dataA","column2":"dataB"},
 {"column1":"dataC","column2":"dataD"}
]

Как это можно сделать с помощью Spark?

0

json apache-spark pyspark aws-glue

Источник

user3002334 19 сен '18 в 14:36

2 ответа

Другие вопросы по тегам json apache-spark pyspark aws-glue

user10314193 20 сен '18 в 10:24 2018-09-20 10:24 · Answer 1 · 2018-09-20 10:24

Вы можете взорвать response.docs колонка.
Затем просто выберите column1 а также column2 из этой взорвавшейся колонны.
Как это

df.select(F.explode('response.docs').alias('col')) \
  .select('col.column1', 'col.column2')

Тогда результат будет таким

+-------+-------+
|column1|column2|
+-------+-------+
|  dataA|  dataB|
|  dataC|  dataD|
+-------+-------+

user1791510 20 сен '18 в 07:47 2018-09-20 07:47 · Answer 2 · 2018-09-20 07:47

Попробуйте использовать функцию разнесения Spark (см. Пример здесь)

0

Источник

user1791510 20 сен '18 в 07:47