Панды нечеткие обнаруживают дубликаты

Question

Панды нечеткие обнаруживают дубликаты

Как можно использовать нечеткое сопоставление в пандах для обнаружения дублирующих строк (эффективно)

Как найти дубликаты одного столбца против всех остальных без гигантского цикла for преобразования row_i toString() и сравнения его со всеми остальными?

5

python pandas fuzzy-search record-linkage locality-sensitive-hash

Источник

user2587904 14 сен '16 в 12:13

1 ответ

Решение

pandas-dedupe - ваш друг здесь. Вы можете попробовать сделать следующее:

import pandas as pd
from pandas_deudpe import dedupe_dataframe

df = pd.DataFrame.from_dict({'bank':['bankA', 'bankA', 'bankB', 'bankX'],'email':['email1', 'email1', 'email2', 'email3'],'name':['jon', 'john', 'mark', 'pluto']})

dd = dedupe_dataframe(df, ['bank', 'name', 'email'], sample_size=1)

Если вы также хотите установить каноническое имя для тех же объектов, установите canonicalize=True.

[Я один из участников pandas-dedupe]

2

Источник

user13461602 12 июл '20 в 19:26

Теперь существует пакет, упрощающий использование библиотеки дедупликации с пандами: pandas-dedupe

(Я разработчик исходной библиотеки дедупликации, но не пакета pandas-dedupe)

0

Источник

user98080 06 мар '20 в 18:00

Другие вопросы по тегам python pandas fuzzy-search record-linkage locality-sensitive-hash

user98080 18 сен '16 в 02:52 2016-09-18 02:52 · Accepted Answer · 2016-09-18 02:52

Не специфично для панд, но в экосистеме питона библиотека дедупеонов, похоже, делает то, что вы хотите. В частности, он позволяет сравнивать каждый столбец строки в отдельности, а затем объединять информацию в единую оценку вероятности совпадения.