Нет отсортированного алгоритма соседства в R?

В настоящее время я ищу способы обнаружения дублирующих записей в наборах данных с использованием R. Я попытался найти некоторую реализацию алгоритма Sorted Neighbourhood по принципу Hernandez/Stolfo (1998), но безуспешно. Я нашел пакет RecordLinkage, который мне еще нужно изучить более глубоко. Это похоже на реализацию подхода Fellegi/Sunter. Однако в нем нет методов Sorted Neighborhood. Я что-то здесь не так или нет R-реализации метода Sorted Neighborhood?

EDIT_1: под "повторяющимися записями" я подразумеваю записи, которые могут немного отличаться, но относятся к одному и тому же объекту, например, можно поменять имя и фамилию, могут быть опечатки и т. Д.

0 ответов

Другие вопросы по тегам