ElasticSearch: обнаружение потенциальных дубликатов
У меня есть список названий компаний, которые могут содержать много дубликатов на основе нечеткого соответствия.
Мне нужно иметь возможность идентифицировать потенциальные дубликаты, чтобы пользователь мог вручную просмотреть и решить, следует ли объединить.
Нечеткое совпадение может быть таким же простым, как проверка того, имеют ли две компании одно и то же имя после удаления знаков препинания (например, Freight Ltd
а также Freight Ltd
.) или на основе нечеткого поиска (например, Adam Opel
, Adam Opel AG
а также Opel AG
все содержат опель).
Знаете ли вы, есть ли способ определить эти потенциальные нечеткие совпадения из Elasticsearch?