Кодировать ujson.Value в наборе данных Spark

Question

Кодировать ujson.Value в наборе данных Spark

Допустим, у меня хранятся эти строки JSON в текстовом файле.

{"a": "...", "data": [{}]}
{"a": "...", "data": [{"b": "..."}]}
{"a": "...", "data": [{"d": "..."}]}
{"a": "...", "data": [{"b": "...", "c": "..."}]}

Я хотел бы обработать файл в Spark Dataset, но я не знаю точную схему поля data, я использовал upickle преобразовать JSON в класс case

case class MyCC(a: String, data: Seq[ujson.Value.Obj])

implicit val r: Reader[MyCC] = macroR

sc.textFile("s3://path/to/file.txt")
  .map(uread[MyCC](_))
  .toDS                 // Dataset[MyCC]
  .show()

Пытаясь это, я получаю следующую ошибку:

java.lang.UnsupportedOperationException: No Encoder found for ujson.Value
- map value class: "ujson.Value"
- field (class: "scala.collection.mutable.LinkedHashMap", name: 
"value")
- array element class: "ujson.Obj"
- field (class: "scala.collection.Seq", name: "data")
- root class: "com.mycaule.MyCC"

Как мне решить эту проблему моделирования данных?

Спасибо

0

scala apache-spark upickle

Источник

user1360476 10 дек '18 в 13:17

1 ответ

Другие вопросы по тегам scala apache-spark upickle

user3238085 10 дек '18 в 13:42 2018-12-10 13:42 · Answer 1 · 2018-12-10 13:42

Я мог бы читать данные без создания пользовательских кодировщиков, как требуется. Я только что определил класс дела правильно.

import scala.collection.mutable
case class CustomClass( a: String,
                        data: List[mutable.HashMap[String,String]]
                              )

val dataSourceName =  "s3/path/to/data.json"

val schema = ScalaReflection.schemaFor[CustomClass].dataType.asInstanceOf[StructType]

val data = spark.read.schema(schema).json(dataSourceName).as[CustomClass]

data.show(10, truncate = false)

Следующий вывод:

+---+----------------------+
|a  |data                  |
+---+----------------------+
|...|[[]]                  |
|...|[[b -> ...]]          |
|...|[[d -> ...]]          |
|...|[[b -> ..., c -> ...]]|
+---+----------------------+