Структурирование результатов дедупликации в базе данных
Я использую дедуплексный проект Python, чтобы найти дубликаты названий организаций в моих данных. Многие из примеров сосредоточены на том, как обрабатывать данные, а не на том, как реализованы результаты. Существуют ли передовые практики для получения результатов, помещения их в базу данных и запроса для группировки записей, которые являются дубликатами?
Пока я думаю о том, чтобы структурировать две таблицы следующим образом (используя sqlalchemy), но я чувствую, что что-то не так:
class Organization(Base):
__tablename__ = 'organization'
id = Column(Integer, primary_key=True)
name = Column(String)
cluster_id = Column(Integer, ForeignKey('duplicate_organization.cluster_id'))
class DuplicateOrganzation(Base):
__tablename__ = 'duplicate_organization'
id = Column(Integer, primary_key=True)
cluster_id = Column(Integer)
name = Column(String)
organizations = relationship("Organization")