Искры DropDuplicates на основе поля массива JSON

Question

Искры DropDuplicates на основе поля массива JSON

У меня есть файлы JSON следующей структуры:

{"names":[{"name":"John","lastName":"Doe"},
{"name":"John","lastName":"Marcus"},
{"name":"David","lastName":"Luis"}
]}

Я хочу прочитать несколько таких json-файлов и различать их по столбцу "name" внутри имен. Я старался

df.dropDuplicates(Array("names.name"))

но это не сработало.

0

scala apache-spark databricks

Источник

user1372862 12 июн '17 в 17:51

3 ответа

Другие вопросы по тегам scala apache-spark databricks

user1304305 12 июн '17 в 17:56 2017-06-12 17:56 · Answer 1 · 2017-06-12 17:56

Кажется, это регрессия, добавленная в spark 2.0. Если вы переведете вложенный столбец на самый высокий уровень, вы можете удалить дубликаты. Если мы создадим новый столбец на основе столбцов, которые вы хотите дедуплировать. Затем мы отбрасываем столбцы и, наконец, отбрасываем столбец. Следующая функция будет работать и для составных ключей.

val columns = Seq("names.name")
df.withColumn("DEDUP_KEY", concat_ws(",", columns:_*))
  .dropDuplicates("DEDUP_KEY")
  .drop("DEDUP_KEY")

user1372862 12 июн '17 в 19:10 2017-06-12 19:10 · Answer 2 · 2017-06-12 19:10

Просто для дальнейшего использования, решение выглядит так

      val uniqueNams = allNames.withColumn("DEDUP_NAME_KEY", 
org.apache.spark.sql.functions.explode(new Column("names.name")))
.cache()
.dropDuplicates(Array("DEDUP_NAME_KEY"))
.drop("DEDUP_NAME_KEY")

0

Источник

user1372862 12 июн '17 в 19:10

Ganga Singh 30 мар '23 в 14:03 2023-03-30 14:03 · Answer 3 · 2023-03-30 14:03

В качестве обновления существующего ответа аналогичного результата можно добиться без взрыва. Мы можем просто получить значение каждого столбца, а затем выполнить объединение для генерации DEDUPE_KEY.

      val columns = Seq("names.name")
df.withColumn("DEDUPE_KEY", concat_ws("_", columns.map(att => col(att)):_*))
  .dropDuplicates("DEDUPE_KEY")
  .drop("DEDUPE_KEY")