Стандартизировать текстовые входные данные
Мы получаем много типизированных данных из неконтролируемых внешних источников. Данные охватывает марки / модели бытовой техники. Потому что у нас нет контроля за принудительной проверкой / автозаполнением написания / форматирования этих данных, это очень грязно.
Я знаю, что такие вещи, как упругий поиск, позволяют игнорировать орфографические ошибки при запросах. Однако я хотел бы иметь возможность группировать и автоматически нормализовать данные, чтобы их можно было сгруппировать.
Я думал о том, чтобы вычислить расстояние Левенштейна между любым текстом и сгруппировать похожие записи. Однако, поскольку многие из этих устройств имеют номера моделей, емкости и т. Д. В их названиях, это вызовет проблемное количество ложных совпадений. Не говоря уже о довольно сложной вычислительной операции.
Пример использования бытовых газовых котлов
- VAILLANT Ecotec Pro 28
- VAILLIANT Ecotec Pro 28
- Vailliant Eco Tec 28 Pro
- VAILLIANT turbomax 242 / 2-5
- POTTERTON Promax Combi 28 HE Plus
- Поттертон Промакс 28
Первые 3 и последние 2 одинаковы. Очевидно, что есть много возможностей для ошибок, включая форматирование и правописание.