Google уточнение: используйте фасетные инструменты, чтобы вывести карту между двумя столбцами
Я искал, но не нашел, как это сделать в доработке.
У меня есть две колонки уникальных IDS. Для каждого a в A я хочу найти лучшие 10 самых близких совпадений в B.
Мой план резервного копирования состоит в том, чтобы просто использовать Левенштейна для итерации... но у Refine такой приятный интерфейс и реализовано гораздо больше алгоритмов, и я надеялся, что смогу выполнить часть работы, используя его.
Или есть другой инструмент для этого?
1 ответ
Знаете ли вы, что вы можете использовать алгоритм кластеризации, такой как fingerprint или ngramFingerprint ( source), из интерфейса кластеризации в Refine?
Используя ваше поле IDS, создайте новый столбец на основе этого столбца со следующим выражением: ngramFingerprint(value)
Теперь вы можете скрестить с другим вашим набором данных в этом новом столбце. Это может помочь получить больше матчей.