Понимание Dedupe Gazetteer

Я изменил пример gazetteer для моих данных, которые содержат 1044 уникальных записи (канонический набор данных), чтобы соответствовать грязному набору данных (который содержит около 54170 записей).

Я ожидал, что каждая запись в грязном наборе данных будет сопоставлена ​​с 1 записью из канонического набора данных. (Записи из грязного набора данных не должны содержать ни одного clusterId, которого нет в каноническом наборе данных). Однако я получаю много кластерных идентификаторов, которых даже нет в наборе данных Canonical.

Это ожидаемое поведение? Если это так, как я могу убедиться, что каждая запись из грязного набора данных должна соответствовать хотя бы 1 записи из канонического набора данных?

0 ответов

Другие вопросы по тегам