Добавить в R, чтобы соответствовать нечетких строк

Question

Добавить в R, чтобы соответствовать нечетких строк

У меня есть два листа Excel с данными о страховых претензиях от двух разных страховых компаний. Мне нужно найти случаи лиц, которые подали претензии по обоим поставщикам.

Я хотел бы иметь что-то, что объединяет имена, если кажется вероятным, что они имеют одно и то же имя, но ничего не делает, если не находит достаточно похожего имени на другом листе. Из того, что я прочитал, я думаю, что мне нужно использовать нечеткие строки для этого (и, возможно, расстояние DL). Я знаю, что у R есть функция расстояния до строки, adist, но я изо всех сил пытаюсь научиться правильно ее использовать.

Для примера:

Provider 1:
Ms. Smith        35        F        Portland,OR             Cardiac
Adam Jacobs      27        M        San Francisco, CA       Gynecology
Emily Lo         19        F        Portland,OR             Ortho
Frances Wu       33        F        Dallas, TX              ENT

Provider 2: 
Clara Smith      35        F        Portland,OR              Cardiac
Bill White       29        M        San Francisco, CA        Ortho
Emily S. Lo      19        F        Portland,OR              Ortho
Dev Patel        22        M        Dallas, TX               Neuro

Так что здесь следует признать, что Эмили С. Ло - это тот же человек, что и Эмили Ло, и что Клара Смит такая же, как мисс Смит, и дать мне список с их именами и информацией. Как мне это сделать?

Я попытался скопировать то, что сделал этот человек: http://bigdata-doctor.com/fuzzy-string-matching-survival-skill-tackle-unstructured-information-r/ Я попытался с их данными, скопировать / вставить их код, и я продолжаю получить результат 0x0.

0

r excel stringdist

Источник

user5618683 06 дек '16 в 10:30

0 ответов

Другие вопросы по тегам r excel stringdist