Структурирование результатов дедупликации в базе данных

Я использую дедуплексный проект Python, чтобы найти дубликаты названий организаций в моих данных. Многие из примеров сосредоточены на том, как обрабатывать данные, а не на том, как реализованы результаты. Существуют ли передовые практики для получения результатов, помещения их в базу данных и запроса для группировки записей, которые являются дубликатами?

Пока я думаю о том, чтобы структурировать две таблицы следующим образом (используя sqlalchemy), но я чувствую, что что-то не так:

class Organization(Base):
    __tablename__ = 'organization'

    id = Column(Integer, primary_key=True)
    name = Column(String)
    cluster_id = Column(Integer, ForeignKey('duplicate_organization.cluster_id'))


class DuplicateOrganzation(Base):
    __tablename__ = 'duplicate_organization'

    id = Column(Integer, primary_key=True)
    cluster_id = Column(Integer)
    name = Column(String)
    organizations = relationship("Organization") 

0 ответов

Другие вопросы по тегам