Дедупликация в R эквивалент
Есть ли в R эквивалентный пакет, похожий на библиотеку дедупликации в Python?
Причина в том, что я использовал пакет 'Record Linkage' в прошлом, но когда дело доходит до больших наборов данных, мне, кажется, трудно. Dedupe, кажется, работает очень быстро в Python и вводит элемент машинного обучения.
У кого-нибудь есть рекомендации, которые оказались успешными?
1 ответ
Я использую этот пакет:https://journal.r-project.org/articles/RJ-2022-038/RJ-2022-038.pdf
Кажется, он хорошо работает для набора данных из нескольких тысяч записей. (<5к)
Он утверждает, что более эффективен, чем RecordLinkage. Однако я не пробовал его на больших данных. Я еще не сравнивал реализацию Python: Dedupe с этой.