Дедупликация в R эквивалент

Question

Дедупликация в R эквивалент

Есть ли в R эквивалентный пакет, похожий на библиотеку дедупликации в Python?

Причина в том, что я использовал пакет 'Record Linkage' в прошлом, но когда дело доходит до больших наборов данных, мне, кажется, трудно. Dedupe, кажется, работает очень быстро в Python и вводит элемент машинного обучения.

У кого-нибудь есть рекомендации, которые оказались успешными?

4

r python-dedupe

Источник

user6161637 05 фев '18 в 12:54

1 ответ

Другие вопросы по тегам r python-dedupe

Ankita Bhatia 20 фев '23 в 11:09 2023-02-20 11:09 · Answer 1 · 2023-02-20 11:09

Я использую этот пакет:https://journal.r-project.org/articles/RJ-2022-038/RJ-2022-038.pdf

Кажется, он хорошо работает для набора данных из нескольких тысяч записей. (<5к)

Он утверждает, что более эффективен, чем RecordLinkage. Однако я не пробовал его на больших данных. Я еще не сравнивал реализацию Python: Dedupe с этой.