ElasticSearch: обнаружение потенциальных дубликатов

У меня есть список названий компаний, которые могут содержать много дубликатов на основе нечеткого соответствия.

Мне нужно иметь возможность идентифицировать потенциальные дубликаты, чтобы пользователь мог вручную просмотреть и решить, следует ли объединить.

Нечеткое совпадение может быть таким же простым, как проверка того, имеют ли две компании одно и то же имя после удаления знаков препинания (например, Freight Ltd а также Freight Ltd.) или на основе нечеткого поиска (например, Adam Opel, Adam Opel AG а также Opel AG все содержат опель).

Знаете ли вы, есть ли способ определить эти потенциальные нечеткие совпадения из Elasticsearch?

0 ответов

Другие вопросы по тегам