Поиск потенциальных дубликатов (орфографических ошибок) в r

Question

Поиск потенциальных дубликатов (орфографических ошибок) в r

Возможный дубликат:
Р: Как измерить сходство между строками?

Я работал над большим набором данных. Мне нужно найти потенциальные дубликаты - похожие названия, такие как:

NewYork, new york, New York, Naw York, Niy Work

Таким образом, я подумал, что следующие правила могут помочь выявить такие потенциальные дубликаты:

Если какие-либо три последовательных символа совпадают: Проблема: тогда он обнаружил бы следующее как потенциальное дублирование, в реальном смысле это не так. Если вы станете более консервативным, мне могут понадобиться 4 последовательных символа, то у меня могут возникнуть проблемы с короткими словами.

Есть ли какой-нибудь умный способ найти тип опечаток дублирования?

Рассмотрим следующий небольшой пример:

myfruits <- c("Apple", "Apricot", "Avocado", "Banana", "Bilberry", 
"Blackberry", "Blackcurrant",    "Blueberry", "Currant", 
"Cherry", "Cherimoya", "Clementine", "Aple", "Binana", "BlaCkbarry",
"pricot")

Speller error, но на самом деле есть дубликаты в приведенном выше списке:

 "Apple" & "Aple",
"Banana" &  "Binana", 
"Blackberry" & "BlaCkbarry", 
"Apricot" &  "pricot"

1

r duplicate-data

Источник

user1502364 05 июл '12 в 10:58

0 ответов

Другие вопросы по тегам r duplicate-data