Удаляйте дубликаты с помощью структурированной потоковой передачи Spark

Я работаю над реализацией потокового приложения Spark, и мне нужно удалить дубликаты строк на основе указанного столбца.

Я использую следующий код Scala, но получаю ошибки.

      val intermediateDataframe = df.select(COLUMN_UUID, FUNCTIONAL_ID)
    .withColumn(NAME, lit(NA))
  intermediateDataframe.selectExpr(COLUMN_UUID, FUNCTIONAL_ID, NAME).dropDuplicates(FUNCTIONAL_ID)

Кто-нибудь работал над реализацией фильтра Блума или алгоритма HyperLogLog для удаления дублирующихся строк в Spark Scala?

Источник

user9845366 13 сен '18 в 08:31

0 ответов

Другие вопросы по тегам scala apache-spark spark-streaming bloom-filter hyperloglog