Как различить строки для выбранных столбцов в pyspark?

Мой DataFrame выглядит так:

------------------------------------
 product   item      qty       flag
------------------------------------
   A       A021      2          0
   A       A021      3          1
   B       B031      4          0
   B       B031      4          1
   B       B031      6          1
   C       C040      5          1
------------------------------------

Я хочу отбросить повторяющиеся строки для столбца product и колонка item, Если некоторые строки имеют одинаковые product а также item отбросить ряды которых flag является 1 (это ключевой момент). Итак, моя целевая датафрейм выглядит так:

------------------------------------
 product   item      qty       flag
------------------------------------
   A       A021      2          0
   B       B031      4          0
   C       C040      5          1
------------------------------------

Как этого добиться, используя RDD или DataFrame в Pyspark 1.5.1?

0 ответов

Другие вопросы по тегам