Как различить строки для выбранных столбцов в pyspark?
Мой DataFrame выглядит так:
------------------------------------
product item qty flag
------------------------------------
A A021 2 0
A A021 3 1
B B031 4 0
B B031 4 1
B B031 6 1
C C040 5 1
------------------------------------
Я хочу отбросить повторяющиеся строки для столбца product
и колонка item
, Если некоторые строки имеют одинаковые product
а также item
отбросить ряды которых flag
является 1
(это ключевой момент). Итак, моя целевая датафрейм выглядит так:
------------------------------------
product item qty flag
------------------------------------
A A021 2 0
B B031 4 0
C C040 5 1
------------------------------------
Как этого добиться, используя RDD или DataFrame в Pyspark 1.5.1?