Консолидация / кластеризация Термины и фразы
Наше приложение позволяет пользователю вводить названия компаний, с которыми работает их организация. В настоящее время проблема заключается в том, что способ ввода имени компании одним пользователем варьируется от пользователя к пользователю. Нам нужно объединить эти данные. Есть ли проверенные подходы для решения этой проблемы?
1 ответ
Проблема качества данных обычно называется очисткой данных. Есть много методов и инструментов в этой области.
Лучшее для вас будет зависеть от масштабов вашей проблемы, а также от технологий, которые вы используете. Но если я хорошо понимаю, что сохраненные данные в порядке, проблема в том, что пользователь вводит данные для поиска с неправильным написанием? В этом случае может помочь нечеткий поиск.