Стандартизировать текстовые входные данные

Question

Стандартизировать текстовые входные данные

Мы получаем много типизированных данных из неконтролируемых внешних источников. Данные охватывает марки / модели бытовой техники. Потому что у нас нет контроля за принудительной проверкой / автозаполнением написания / форматирования этих данных, это очень грязно.

Я знаю, что такие вещи, как упругий поиск, позволяют игнорировать орфографические ошибки при запросах. Однако я хотел бы иметь возможность группировать и автоматически нормализовать данные, чтобы их можно было сгруппировать.

Я думал о том, чтобы вычислить расстояние Левенштейна между любым текстом и сгруппировать похожие записи. Однако, поскольку многие из этих устройств имеют номера моделей, емкости и т. Д. В их названиях, это вызовет проблемное количество ложных совпадений. Не говоря уже о довольно сложной вычислительной операции.

Пример использования бытовых газовых котлов

VAILLANT Ecotec Pro 28
VAILLIANT Ecotec Pro 28
Vailliant Eco Tec 28 Pro
VAILLIANT turbomax 242 / 2-5
POTTERTON Promax Combi 28 HE Plus
Поттертон Промакс 28

Первые 3 и последние 2 одинаковы. Очевидно, что есть много возможностей для ошибок, включая форматирование и правописание.

1

c# normalization levenshtein-distance standardized

Источник

user1321662 21 июн '17 в 09:06

0 ответов

Другие вопросы по тегам c# normalization levenshtein-distance standardized