Дедупликация в R эквивалент

Есть ли в R эквивалентный пакет, похожий на библиотеку дедупликации в Python?

Причина в том, что я использовал пакет 'Record Linkage' в прошлом, но когда дело доходит до больших наборов данных, мне, кажется, трудно. Dedupe, кажется, работает очень быстро в Python и вводит элемент машинного обучения.

У кого-нибудь есть рекомендации, которые оказались успешными?

1 ответ

Я использую этот пакет:https://journal.r-project.org/articles/RJ-2022-038/RJ-2022-038.pdf

Кажется, он хорошо работает для набора данных из нескольких тысяч записей. (<5к)

Он утверждает, что более эффективен, чем RecordLinkage. Однако я не пробовал его на больших данных. Я еще не сравнивал реализацию Python: Dedupe с этой.

Другие вопросы по тегам