Ищете аналог pd.DataFrame.drop_duplicates(), где порядок не имеет значения

Question

Ищете аналог pd.DataFrame.drop_duplicates(), где порядок не имеет значения

Я хотел бы использовать что-то похожее на удаление дубликатов DataFrame. Я бы хотел, чтобы порядок столбцов не имел значения. Я имею в виду, что функция должна рассматривать строку, состоящую из записей 'a', 'b' быть идентичным строке, состоящей из записей 'b', 'a', Например, учитывая

df = pd.DataFrame([['a', 'b'], ['c', 'd'], ['a', 'b'], ['b', 'a']])

   0  1
0  a  b
1  c  d
2  a  b
3  b  a

Я хотел бы получить:

   0  1
0  a  b
1  c  d

где предпочтение отдается эффективности, поскольку я запускаю это для огромного набора данных в рамках групповой операции.

1

python-3.x pandas dataframe data-cleaning drop-duplicates

Источник

user6204900 28 янв '18 в 11:22

1 ответ

Решение

Другие вопросы по тегам python-3.x pandas dataframe data-cleaning drop-duplicates

user4909087 28 янв '18 в 11:37 2018-01-28 11:37 · Accepted Answer · 2018-01-28 11:37

Вызов np.sort сначала, а затем отбросьте дубликаты.

df[:] = np.sort(df.values, axis=1)
df.drop_duplicates()

   0  1
0  a  b
1  c  d

1

Источник

user4909087 28 янв '18 в 11:37