Нет отсортированного алгоритма соседства в R?

Question

Нет отсортированного алгоритма соседства в R?

В настоящее время я ищу способы обнаружения дублирующих записей в наборах данных с использованием R. Я попытался найти некоторую реализацию алгоритма Sorted Neighbourhood по принципу Hernandez/Stolfo (1998), но безуспешно. Я нашел пакет RecordLinkage, который мне еще нужно изучить более глубоко. Это похоже на реализацию подхода Fellegi/Sunter. Однако в нем нет методов Sorted Neighborhood. Я что-то здесь не так или нет R-реализации метода Sorted Neighborhood?

EDIT_1: под "повторяющимися записями" я подразумеваю записи, которые могут немного отличаться, но относятся к одному и тому же объекту, например, можно поменять имя и фамилию, могут быть опечатки и т. Д.

0

r record-linkage

Источник

user7306540 30 авг '18 в 09:21

0 ответов

Другие вопросы по тегам r record-linkage