Нечеткое сопоставление и извлечение строк из строкового вектора для завершения кадра данных
У меня есть список французских имен с некоторыми небольшими синтаксическими различиями.
names <- c("Benoit", "Arnoud (son)", "Arnoud", "Arnous", "Archer, Patrice*", "Archer", "Archer (father)", "André" )
"Арноуд (сын)", "Арноуд", "Арноус" - все эти имена принадлежат к одной семье. Я хотел бы иметь возможность создавать объект DataFrame для группировки лиц по семье
people1 |people2 |people3 |people4|
"Benoit" | NA |NA |NA
"Arnoud (son)", |"Arnoud"|"Arnous" | NA
"Archer, Patrice*"|"Archer"| "Archer"|"Archer (father)"
"André" | NA | NA |NA