Понимание Dedupe Gazetteer

Question

Понимание Dedupe Gazetteer

Я изменил пример gazetteer для моих данных, которые содержат 1044 уникальных записи (канонический набор данных), чтобы соответствовать грязному набору данных (который содержит около 54170 записей).

Я ожидал, что каждая запись в грязном наборе данных будет сопоставлена с 1 записью из канонического набора данных. (Записи из грязного набора данных не должны содержать ни одного clusterId, которого нет в каноническом наборе данных). Однако я получаю много кластерных идентификаторов, которых даже нет в наборе данных Canonical.

Это ожидаемое поведение? Если это так, как я могу убедиться, что каждая запись из грязного набора данных должна соответствовать хотя бы 1 записи из канонического набора данных?

0

python-dedupe

Источник

user395028 22 авг '18 в 04:28

0 ответов

Другие вопросы по тегам python-dedupe