Есть ли более быстрая альтернатива col.drop_duplicates()?

Question

Есть ли более быстрая альтернатива col.drop_duplicates()?

Я пытаюсь удалить дубликаты данных в моем фрейме данных (CSV) и получить отдельный CSV, чтобы показать уникальные ответы каждого столбца. Проблема в том, что мой код работал в течение дня (22 часа, если быть точным). Я открыт для некоторых других предложений.

Мои данные имеют около 20000 строк с заголовками. Я пытался проверить уникальный список один за другим, как df[col].unique(), и это не занимает много времени.

>df = pd.read_csv('Surveydata.csv')
>
>df_uni=df.apply(lambda col: col.drop_duplicates().reset_index(drop=True))
>
>df_uni.to_csv('Surveydata_unique.csv',index=False)

Я ожидаю, что это фрейм данных с тем же набором столбцов, но без дублирования в каждом поле. Ex. если df['Rmoisture'] имеет комбинацию Да, Нет, Нан, он должен иметь только эти 3, содержащиеся в том же столбце другого фрейма данных df_uni.

РЕДАКТИРОВАТЬ: и вот примеры ввода вывода

6

python-3.x pandas jupyter-notebook drop-duplicates

Источник

user9335757 15 янв '19 в 10:25

2 ответа

Решение

Если порядок значений в столбцах не важен, преобразуйте каждый столбец в set для удаления дубликатов, а затем Series и присоединиться к concat:

df1 = pd.concat({k: pd.Series(list(set(v))) for k, v in df.to_dict('l').items()}, axis=1)

Если заказ важен:

df1 = pd.concat({col: pd.Series(df[col].unique()) for col in df.columns}, axis=1)

Производительность 1К уникальных значений в 2К строк:

np.random.seed(2019)

#2k rows
df = pd.DataFrame(np.random.randint(1000, size=(20, 2000))).astype(str)


In [151]: %timeit df.apply(lambda col: col.drop_duplicates().reset_index(drop=True))
1.07 s ± 16.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [152]: %timeit pd.concat({k: pd.Series(list(set(v))) for k, v in df.to_dict('l').items()}, axis=1)
323 ms ± 2.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [153]: %timeit pd.concat({col: pd.Series(df[col].unique()) for col in df.columns}, axis=1)
430 ms ± 4.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Производительность 100 уникальных значений в 2 тыс. Строк

df = pd.DataFrame(np.random.randint(100, size=(20, 2000))).astype(str)

In [155]: %timeit df.apply(lambda col: col.drop_duplicates().reset_index(drop=True))
1.3 s ± 12.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [156]: %timeit pd.concat({k: pd.Series(list(set(v))) for k, v in df.to_dict('l').items()}, axis=1)
544 ms ± 3.37 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [157]: %timeit pd.concat({col: pd.Series(df[col].unique()) for col in df.columns}, axis=1)
654 ms ± 3.16 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

3

Источник

user2901002 15 янв '19 в 11:55

Другие вопросы по тегам python-3.x pandas jupyter-notebook drop-duplicates

user9840637 15 янв '19 в 13:42 2019-01-15 13:42 · Accepted Answer · 2019-01-15 13:42

Другой метод:

new_df = []
[new_df.append(pd.DataFrame(df[i].unique(), columns=[i])) for i in df.columns]
new_df = pd.concat(new_df,axis=1)
print(new_df)


   Mass     Length  Material  Special Mark  Special Num  Breaking  \
0    4.0   5.500000     Wood            A         20.0      Yes   
1   12.0   2.600000    Steel          NaN          NaN       No   
2    1.0   3.500000   Rubber            B          5.5      NaN   
3   15.0   6.500000  Plastic            X          6.6      NaN   
4    6.0  12.000000      NaN          NaN          5.6      NaN   
5   14.0   2.500000      NaN          NaN          6.3      NaN   
6    2.0  15.000000      NaN          NaN          NaN      NaN   
7    8.0   2.000000      NaN          NaN          NaN      NaN   
8    7.0  10.000000      NaN          NaN          NaN      NaN   
9    9.0   2.200000      NaN          NaN          NaN      NaN   
10  11.0   4.333333      NaN          NaN          NaN      NaN   
11  13.0   4.666667      NaN          NaN          NaN      NaN   
12   NaN   3.750000      NaN          NaN          NaN      NaN   
13   NaN   1.666667      NaN          NaN          NaN      NaN   

                  Comment  
0        There is no heat  
1                     NaN  
2       Contains moisture  
3   Hit the table instead  
4          A sign of wind  
5                     NaN  
6                     NaN  
7                     NaN  
8                     NaN  
9                     NaN  
10                    NaN  
11                    NaN  
12                    NaN  
13                    NaN