Google уточнение: используйте фасетные инструменты, чтобы вывести карту между двумя столбцами

Я искал, но не нашел, как это сделать в доработке.

У меня есть две колонки уникальных IDS. Для каждого a в A я хочу найти лучшие 10 самых близких совпадений в B.

Мой план резервного копирования состоит в том, чтобы просто использовать Левенштейна для итерации... но у Refine такой приятный интерфейс и реализовано гораздо больше алгоритмов, и я надеялся, что смогу выполнить часть работы, используя его.

Или есть другой инструмент для этого?

1 ответ

Решение

Знаете ли вы, что вы можете использовать алгоритм кластеризации, такой как fingerprint или ngramFingerprint ( source), из интерфейса кластеризации в Refine?

Используя ваше поле IDS, создайте новый столбец на основе этого столбца со следующим выражением: ngramFingerprint(value)

Теперь вы можете скрестить с другим вашим набором данных в этом новом столбце. Это может помочь получить больше матчей.

Другие вопросы по тегам