Добавить в R, чтобы соответствовать нечетких строк
У меня есть два листа Excel с данными о страховых претензиях от двух разных страховых компаний. Мне нужно найти случаи лиц, которые подали претензии по обоим поставщикам.
Я хотел бы иметь что-то, что объединяет имена, если кажется вероятным, что они имеют одно и то же имя, но ничего не делает, если не находит достаточно похожего имени на другом листе. Из того, что я прочитал, я думаю, что мне нужно использовать нечеткие строки для этого (и, возможно, расстояние DL). Я знаю, что у R есть функция расстояния до строки, adist, но я изо всех сил пытаюсь научиться правильно ее использовать.
Для примера:
Provider 1:
Ms. Smith 35 F Portland,OR Cardiac
Adam Jacobs 27 M San Francisco, CA Gynecology
Emily Lo 19 F Portland,OR Ortho
Frances Wu 33 F Dallas, TX ENT
Provider 2:
Clara Smith 35 F Portland,OR Cardiac
Bill White 29 M San Francisco, CA Ortho
Emily S. Lo 19 F Portland,OR Ortho
Dev Patel 22 M Dallas, TX Neuro
Так что здесь следует признать, что Эмили С. Ло - это тот же человек, что и Эмили Ло, и что Клара Смит такая же, как мисс Смит, и дать мне список с их именами и информацией. Как мне это сделать?
Я попытался скопировать то, что сделал этот человек: http://bigdata-doctor.com/fuzzy-string-matching-survival-skill-tackle-unstructured-information-r/ Я попытался с их данными, скопировать / вставить их код, и я продолжаю получить результат 0x0.