Соответствие имени с фреймами данных различной длины в R

У меня есть два кадра данных с многочисленными переменными. Первостепенное значение имеют следующие переменные, df1.organization_name и df2.legal.name. Я просто использую полные имена SQL-esque здесь.

df1 имеет размеры 15 x 2700, тогда как df2 имеет размеры 10x40 000. И, по сути, "общие" или "совпадающие" столбцы являются полями имен.

Я просмотрел этот пост " Слияние через нечеткое сопоставление переменных в R", и это было очень полезно, но я не могу понять, как изменить сценарий, чтобы он работал с моими dfs.

Я получаю сообщение об ошибке - Ошибка, в которой (имя_организации [i] == LEGAL.NAME): объект 'LEGAL.NAME' не найден.

Желаемое соответствие и результат

Я пытаюсь сравнить каждое из моих df1.organization_name с каждым из df2.legal_name и провести сравнение, если они очень близко совпадают (например,>=85%). А затем, как в приведенном выше сценарии, возьмите совпадающее имя клиента и сопоставленное имя сравнения и поместите их в data.frame для последующего анализа.

Итак, если одно из моих имен клиентов - "Авторемонт Джонса Хопкинса", а одно из моих публичных имен - "Ремонт микрофонов Джона Хопкинса", я бы назвал это хорошим совпадением, и я хочу добавить какой-то индикатор в свой список клиентов. (в другом столбце) с надписью "Частичное совпадение" и именем из общего списка.

Пример (ы) dfs для обработки текста:

df1.organization_name (это поддельные имена, т.к. я не могу публиковать имена клиентов)

- My Company LLC
- John Johns DBA John's Repair
- Some Company Inc
- Ninja Turtles LLP
- Shredder Partners

df2.LEGAL.NAME (это реальные имена из файла с открытым исходным кодом)

- $1 & UP STORE CORP. 
- $1 store 0713
- LLC 0baid/munir/gazem 
- 1 2 3 MONEY EXCHANGE LLC 
- 1 BOY & 3 GIRLS, LLC 
- 1 STAR BEVERAGE INC 
- 1 STOP LLC
- 1 STOP LLC 
- 1 STOP LLC DBA TIENDA MEXICANA LA SAN JOSE 
- 1 Stop Money Centers, LLC/Richard

0 ответов

Другие вопросы по тегам