Стандартизировать текстовые входные данные

Мы получаем много типизированных данных из неконтролируемых внешних источников. Данные охватывает марки / модели бытовой техники. Потому что у нас нет контроля за принудительной проверкой / автозаполнением написания / форматирования этих данных, это очень грязно.

Я знаю, что такие вещи, как упругий поиск, позволяют игнорировать орфографические ошибки при запросах. Однако я хотел бы иметь возможность группировать и автоматически нормализовать данные, чтобы их можно было сгруппировать.

Я думал о том, чтобы вычислить расстояние Левенштейна между любым текстом и сгруппировать похожие записи. Однако, поскольку многие из этих устройств имеют номера моделей, емкости и т. Д. В их названиях, это вызовет проблемное количество ложных совпадений. Не говоря уже о довольно сложной вычислительной операции.

Пример использования бытовых газовых котлов

  • VAILLANT Ecotec Pro 28
  • VAILLIANT Ecotec Pro 28
  • Vailliant Eco Tec 28 Pro
  • VAILLIANT turbomax 242 / 2-5
  • POTTERTON Promax Combi 28 HE Plus
  • Поттертон Промакс 28

Первые 3 и последние 2 одинаковы. Очевидно, что есть много возможностей для ошибок, включая форматирование и правописание.

0 ответов

Другие вопросы по тегам