Поиск потенциальных дубликатов (орфографических ошибок) в r
Возможный дубликат:
Р: Как измерить сходство между строками?
Я работал над большим набором данных. Мне нужно найти потенциальные дубликаты - похожие названия, такие как:
NewYork, new york, New York, Naw York, Niy Work
Таким образом, я подумал, что следующие правила могут помочь выявить такие потенциальные дубликаты:
Если какие-либо три последовательных символа совпадают: Проблема: тогда он обнаружил бы следующее как потенциальное дублирование, в реальном смысле это не так. Если вы станете более консервативным, мне могут понадобиться 4 последовательных символа, то у меня могут возникнуть проблемы с короткими словами.
Есть ли какой-нибудь умный способ найти тип опечаток дублирования?
Рассмотрим следующий небольшой пример:
myfruits <- c("Apple", "Apricot", "Avocado", "Banana", "Bilberry",
"Blackberry", "Blackcurrant", "Blueberry", "Currant",
"Cherry", "Cherimoya", "Clementine", "Aple", "Binana", "BlaCkbarry",
"pricot")
Speller error, но на самом деле есть дубликаты в приведенном выше списке:
"Apple" & "Aple",
"Banana" & "Binana",
"Blackberry" & "BlaCkbarry",
"Apricot" & "pricot"