Я не могу понять, почему я не могу удалить дубликаты из Dand Pandas

Question

Я не могу понять, почему я не могу удалить дубликаты из Dand Pandas

Я пытаюсь обновить Pandas Dataframe данными из API и записать их в.csv, я должен быть уверен, что он не содержит повторяющихся строк.

Я проверил здесь, чтобы увидеть, в чем может быть проблема (например, забыл добавить inplace=True), но это не так.

Итак... у меня есть панды читать CSV

df = pd.read_csv(file)

Затем я загружаю дополнительные данные из API (я убедился, что у меня есть дубликаты строк) и создаю df2 (файл csv был написан с помощью того же кода, поэтому я уверен, что дублирующаяся строка точно такая же). Теперь мне нужно добавить кадр данных к другому, а затем удалить дубликаты:

df = df.append(df2, ignore_index=True)
df.drop_duplicates(subset=None, keep='first', inplace=True)

тогда я попробовал

df = df.drop_duplicates()

Я ожидал бы не видеть дублирующихся строк с обоими, но я должен что-то упустить, поскольку они все еще там, и я не могу понять, почему. Я проверил, касался ли этот вопрос чей-то вопрос, но я заметил, что проблема обычно отсутствует в части inplace = True... чего я не сделал.

1

python pandas drop-duplicates

Источник

user10766369 13 апр '19 в 15:31

1 ответ

Решение

Другие вопросы по тегам python pandas drop-duplicates

user8488828 13 апр '19 в 15:53 2019-04-13 15:53 · Accepted Answer · 2019-04-13 15:53

Это то, что тебе надо?

df.drop_duplicates(keep=False)

1

Источник

user8488828 13 апр '19 в 15:53