Заставить строки с разными значениями в определенном поле никогда не помечать как дубликаты с помощью библиотеки Python Dedupe
Я использую библиотеку Dedupe в Python для обнаружения и объединения дублирующихся строк в моих данных. Тем не менее, я не могу найти способ сказать Дедупе, что "если значения для этого поля отличаются, то эти строки определенно не являются дубликатами".
Рассмотрим следующий пример:
| Store | Product | SKU |
|----------------|--------------|------|
| Good Foods | Yummy Cereal | P001 |
| Good Foods | Yummi Cereal | P01 |
| Good Foods | Steak | p22 |
| Jack's Grocery | Yummy Cereal | S1 |
| Jack's Grocery | Coke | S2 |
Я хотел бы найти дубликаты в каждом магазине, но не в разных магазинах (так как я создал Store
поле, я знаю, что нет опечаток или возможных дубликатов). Конечно, я мог бы создать отдельный файл для каждого хранилища, но поскольку у меня есть сотни хранилищ в моих данных, это потребовало бы обучения сотням файлов и объединения сотен файлов. Если бы был способ сказать, что дубликаты не могут возникать через Store
с, это сделает вещи невероятно проще.
По сути, мой вопрос противоположен этому.