Удаляйте дубликаты с помощью структурированной потоковой передачи Spark
Я работаю над реализацией потокового приложения Spark, и мне нужно удалить дубликаты строк на основе указанного столбца.
Я использую следующий код Scala, но получаю ошибки.
val intermediateDataframe = df.select(COLUMN_UUID, FUNCTIONAL_ID)
.withColumn(NAME, lit(NA))
intermediateDataframe.selectExpr(COLUMN_UUID, FUNCTIONAL_ID, NAME).dropDuplicates(FUNCTIONAL_ID)
Кто-нибудь работал над реализацией фильтра Блума или алгоритма HyperLogLog для удаления дублирующихся строк в Spark Scala?