Заставить строки с разными значениями в определенном поле никогда не помечать как дубликаты с помощью библиотеки Python Dedupe

Question

Заставить строки с разными значениями в определенном поле никогда не помечать как дубликаты с помощью библиотеки Python Dedupe

Я использую библиотеку Dedupe в Python для обнаружения и объединения дублирующихся строк в моих данных. Тем не менее, я не могу найти способ сказать Дедупе, что "если значения для этого поля отличаются, то эти строки определенно не являются дубликатами".

Рассмотрим следующий пример:

| Store          | Product      | SKU  |
|----------------|--------------|------|
| Good Foods     | Yummy Cereal | P001 |
| Good Foods     | Yummi Cereal | P01  |
| Good Foods     | Steak        | p22  |
| Jack's Grocery | Yummy Cereal | S1   |
| Jack's Grocery | Coke         | S2   |

Я хотел бы найти дубликаты в каждом магазине, но не в разных магазинах (так как я создал Store поле, я знаю, что нет опечаток или возможных дубликатов). Конечно, я мог бы создать отдельный файл для каждого хранилища, но поскольку у меня есть сотни хранилищ в моих данных, это потребовало бы обучения сотням файлов и объединения сотен файлов. Если бы был способ сказать, что дубликаты не могут возникать через Storeс, это сделает вещи невероятно проще.

По сути, мой вопрос противоположен этому.

0

python duplicates python-dedupe

Источник

user4760185 25 фев '19 в 18:25

0 ответов

Другие вопросы по тегам python duplicates python-dedupe