Понимание Dedupe Gazetteer
Я изменил пример gazetteer для моих данных, которые содержат 1044 уникальных записи (канонический набор данных), чтобы соответствовать грязному набору данных (который содержит около 54170 записей).
Я ожидал, что каждая запись в грязном наборе данных будет сопоставлена с 1 записью из канонического набора данных. (Записи из грязного набора данных не должны содержать ни одного clusterId, которого нет в каноническом наборе данных). Однако я получаю много кластерных идентификаторов, которых даже нет в наборе данных Canonical.
Это ожидаемое поведение? Если это так, как я могу убедиться, что каждая запись из грязного набора данных должна соответствовать хотя бы 1 записи из канонического набора данных?