Как получить последнее значение с помощью dropDuplicates()?

Question

Как получить последнее значение с помощью dropDuplicates()?

Допустим, у меня есть следующий искровой фрейм данных (df):

Как видно, в столбце "Timestamp" есть повторяющиеся значения, и я хочу избавиться от них, оставив строки, в которых "Timestamp" имеет уникальные значения.

Я попытался удалить дубликаты с помощью этой строки кода:

df.dropDuplicates(['Timestamp'])

Похоже на то dropDuplicates() сохраняет первую строку в дублированных строках, но мне нужно иметь последнюю строку в дубликате (те, которые выделены в таблице). Как это может быть сделано?

1

dataframe apache-spark pyspark drop-duplicates

Источник

user11142035 10 май '19 в 11:11

2 ответа

Решение

@Oli предложил хорошее решение, которое я использовал следующим образом (используя python):

exprs = [last(x).alias(x) for x in df.columns if x != 'Timestamp']
df0 = df.groupBy("Timestamp").agg(*exprs)

Надеюсь, что это поможет людям, которые могут получить подобную проблему

2

Источник

user11142035 10 май '19 в 14:18

Другие вопросы по тегам dataframe apache-spark pyspark drop-duplicates

user8893686 10 май '19 в 13:23 2019-05-10 13:23 · Accepted Answer · 2019-05-10 13:23

Существует обходной путь, использующий groupBy а также last, Мы можем сделать его общим, определив last агрегатор в каждом столбце, но Timestamp,

// let's define the aggregators
val aggs = df.columns
    .filter(_ != "Timestamp")
    .map(c => last(col(c)) as c)
// And use them:
val result = df
    .groupBy("Timestamp")
    .agg(aggs.head, aggs.tail :_*)