Новая запись кластера в кластеризованной таблице Дедупе

Я использую Python Dedupe для дедупликации для нашей базы данных MDM. Пока что он работает нормально после достаточного обучения, и сформирована таблица карты сущностей, которая показывает вам Cluster_id, каноническое имя и оценку.

Я застрял и не уверен для новой записи, вставленной в базу данных, как эта новая запись может быть объединена с существующими кластерами в таблице entity_map. Я также не смог найти функцию в документации дедупликации.

Повторное выполнение всего процесса (создание карты блокировки, множественного ключа и кластеризованного дублирования) для новых записей будет дорогостоящим, поэтому просто нужно искать более дешевое решение для кластеризации новых записей с существующими кластерами в таблице карты сущностей.

0 ответов

Другие вопросы по тегам